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PROLOGO 


Este manual esta dirigido, principalmente, a los profesionales, estudiantes y hombres 
de negocios que necesiten un instrumento aplicable en todas las areas del conocimien- 
to. En particular, a economistas, administradores de empresas, psicologos, sociologos 
y, en general, a todas las personas que deseen contar con dos disciplinas expresadas 
en una version agil y oportuna para recopilar, organizar, manipular, explicar, pronosti- 
car e interpretar datos y convertirlos en information adecuada al proceso de tomar de- 
cisiones. 

En los primeros capitulos analizaremos algunos conceptos fundamentales en la estruc- 
tura de la Estadistica, para ir consolidando el uso de los mismos a medida que ingre- 
semos en etapas mas avanzadas, todo ello, de una manera que resultara muy asequible 
a cada uno de los participantes. Luego nos trasladaremos a la Inferencia Estadistica. El 
metodo es muy sencillo: en cada capitulo se explicara, con los detalles necesarios, el 
significado de los conceptos estadisticos correspondientes, la manera de usarlos, su 
utilidad y su interpretation. En el proceso, tendremos la gran ayuda del programa es- 
tadistico SPSS, siglas en ingles de su nombre completo: Scientific Program for Social 
Sciences, que es el mas conocido y usado de todos los paquetes estadisticos modernos. 
Asi, haremos algo que generalmente requiere dos cursos diferentes: aprenderemos 
Estadistica Descriptiva y el SPSS. 

Asi, el Manual esta dividido en dos partes principales 

Todos los pasos mostraran la conexion unitaria entre el aprendizaje de la Estadistica 
con el uso de los programas del SPSS para resolver cada tipo de problemas. En la ac- 
tualidad, las principales empresas terciarizan los trabajos de investigation de datos; 
sin embargo, para cumplir esa tarea, solo necesitamos conocer la esencia de los con¬ 
ceptos estadisticos, operar el SPSS e interpretar sus resultados. 

La Metodologia 

Todo lo que digamos sobre Estadistica sera concretado de inmediato con la manera de 
usar el SPSS y mostrar como se aplica a la realidad mediante el uso de la computadora 
y el SPSS. En virtud de que se trata de un Manual de Estadistica Aplicada orientado a 
resolver los problemas practicos que se presentan todos los dias, no habra demostra- 
ciones matematicas. Los calculos y toda la operatividad seran realizados por el SPSS, 
cuyos programas si, han sido estructurados sobre la base de las formulas matematicas 
requeridas. Por lo general, el aprendizaje de la estadistica en los cursos universitarios 
se hace innecesariamente artificial y dificil, pues se asume que todos los participantes 
estudian para obtener el titulo de Estadisticos Teoricos. En los textos tradicionales, las 
demostraciones teoricas de las formulas ocupan la mayor parte de los capitulos y los 
participantes pierden el rumbo, confundiendo el concepto cualitativo con el proceso 
de la demostracion. Este manual esta disenado para brindar al participante un instru- 
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mento agil y operativo que le sirva para resolver problemas reales en entornos reales. 
De ahi el nombre: Estadistica Aplicada con el SPSS. 

Por ultimo, me gustaria referirme al modo expositivo que caracteriza el desarrollo del 
curso; he tratado de que sea conciso y claro. 

He puesto especial enfasis en que nada este por demas ni por de menos. 


Breve esbozo sobre la Historia de la Estadistica 

Los eruditos, esos senores que tienen la mitad del conocimiento en sus bibliotecas y la 
otra mitad en sus cerebros, dicen que la Estadistica surgio como un instrumento de 
analisis en Egipto, por el celo de las autoridades en conocer la poblacion, la cantidad 
de tierra disponible, los repartos de esa tierra y la riqueza que poseian; pero, sobre 
todo, para obtener la information necesaria al calculo de los impuestos. Los chinos ya 
conocian sobre la tecnica de levantar censos y los griegos no se quedaban atras. Los 
romanos asimilaron el conocimiento anterior al que le sumaron sus propios descubri- 
mientos en la tarea periodica de levantar censos, en los que se incluia datos sobre las 
cabezas de ganado, los recursos naturales, como tambien, los matrimonios, nacimien- 
tos y defunciones. La Edad Media no trajo nada nuevo, pero el Renacimiento si, fue una 
epoca en la que se dio gran importancia a las tecnicas de recopilar, ordenas e interpre¬ 
tar datos, que es la medula de la Estadistica. 

En la primera mitad del siglo XVI, los alemanes hicieron una recopilacion sobre los re¬ 
cursos naturales, la poblacion y otros similares. Por aquellas epocas habia una creencia 
muy difundida en sentido de que en los anos terminados en 7, el numero de muertos 
era mucho mayor que en los demas. Gaspar Neumann, un cientifico de gran voluntad y 
conocimiento se dio a la tarea de revisar las partidas parroquiales para comparar el 
numero de nacimientos y defunciones de decenas de anos. Su investigation le permitio 
negar la fatidica sombra de los anos terminados en 7. 

Como sucede con todo descubrimiento util a la ciencia, los metodos usados por Neu¬ 
mann se expandieron. Un astronomo ingles los leyo con gran atencion, los interpreto 
debidamente y los enriquecio con sus propias ideas. Todo eso permitio que el actual 
cometa Halley llevara su nombre. Ademas, uso de los metodos estadisticos para sentar 
las bases que sustentan la estructura de lo que ahora se denominan “Tablas de Mortali- 
dad”, medula espinal de las companias de seguros. 

En Grecia, la primera referencia con relation a la futura disciplina estadistica podria 
ser la que se incluye en el Libro II de Tucidides sobre la Guerra del Peloponeso entre 
espartanos y atenienses. En el texto se anota conceptos propios de lo que ahora llama- 
mos Muestreo. El problema, al parecer, fue el siguiente. El ejercito debe asaltar una 
muralla y los jefes militares han decidido que es preciso contar con una torre movil que 
permita a los soldados to mar la ciudadela, minimizando el riesgo. La tarea exige cono¬ 
cer la altura de la muralla. En un despliegue de observation cientifica, los sabios deci- 
den estimar la altura de la muralla para calcular la altura de la torre. Saben que la mu- 
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ralla esta construida con ladrillos de dimensiones iguales; por ello, solicitan que se en- 
vie una pequena partida de soldados para recopilar datos aproximados sobre la altura 
del bastion, contando, desde una prudente distancia, el numero de ladrillos. Cumplida 
la mision, los soldados regresan para informar sobre sus observaciones. Pero surge un 
inconveniente: cada soldado da una cifra distinta del numero de ladrillos que cree ha- 
ber contado y muy pocos de ellos coinciden entre si. Para resolver el problema, los 
sabios deciden tomar como indicador los datos que mas se repiten en la vision de los 
soldados; esto es, convienen en usar una medida de tendencia central, que sera anali- 
zada en esta obra, a la que se denomina la Moda (No; nada que ver con Christian Dior) 
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1 

INTRODUCTION 


Estadistica: Definicion: 

Disciplina que tiene por objeto la recopilacion, sistematizacion, analisis e inferencias 
de los datos necesarios para tomar decisiones con cierta probabilidad de riesgo. 

Para cumplir sus objetivos, a Estadistica se divide en dos grandes grupos de estudio. 

Estadistica Descriptiva 

Es la rama que obtiene los datos, los recopila y sistematiza para convertirlos en infor¬ 
macion util y describir los rasgos caracteristicos de un objeto de estudio. 

Con ese objeto desarrolla y usa tecnicas que estan implicitos en los programas compu- 
tarizados, tales como el SPSS. 

Inferencia Estadistica 

Es la rama de la Estadistica que utiliza la informacion sistematizada por la Estadistica 
Descriptiva para inferir aspectos importantes de una poblacion dada 

La Inferencia Estadistica cumple su tarea con cierto grado de probabilidad y recurre, 
tal como la Estadistica Descriptiva, a la informacion que logra de las muestras. 

Estadistico 

Es el nombre generico de cualquiera de las medidas utilizadas por la Estadistica Des¬ 
criptiva; por ejemplo, la media aritmetica de los ingresos de una una empresa. 

Variable 

Es una magnitud que varia pero que puede ser medida, manipulada o controlada. 

Suele estar relacionada con otras variables y cambiar en concordancia 

Las definiciones dadas son las que nos serviran para introducir el presente capitulo. 

Sin embargo, a medida que vayamos necesitando, tendremos nuevas definiciones. 

Estoy seguro que este sistema evita que el participante quede apabullado por un nu- 
mero excesivo de definiciones sobre aspectos que aun no conoce. 

SPSS 

Es el mas conocido, completo y util de los programas computarizado de Estadistica 
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En razon de que nuestra metodologla se basa en el proceso “aprender-haciendo” es 
que vamos a iniciar el capitulo con un primer acercamiento al programa SPSS. 

Abrir el SPSS 

Hacemos click en el programa instalado ya en la computadora 
De inmediato, aparece la Caja de Dialogo 1.1 

Caja de Dialogo 1.1 



Click en “cancelar” y aparece la pantalla 1.1, que es un segmento de la pantalla com- 
pleta, con el objeto de que se observe el final de la misma 

Pantalla 1.1 


MlVrn VntttM 


En la parte inferior izquierda del segmento de pantalla aparecen dos leyendas: Data 
View y Variable View. 

Por defecto, el SPSS se inicia en el formato de Data View, tal como se ve en la Pantalla 
1.1; alii anotaremos los datos que nos serviran para realizar nuestra tarea. 

Luego veremos que, el modo Variable View nos sirve para dar nombre a las variables 
estructurarlas. Antes de empezar, definiremos algunos conceptos previos. 











La Poblacion 

La Poblacion es el total de los elementos potencialmente observables; v.g. el numero 
de familias que vive en una ciudad determinada. 

El levantamiento de estos datos, los que cubren a todas las familias que viven en una 
ciudad, se realiza por medio del diseno y la ejecucion de un censo. 

En la disciplina estadistica muy raras veces se usa la Poblacion, pues es muy dificil lie- 
gar a ella; ademas, es cara; mas bien, usamos la Muestra. 

La Muestra 

Es una parte de la Poblacion, la que, utilizando las tecnicas que aprenderemos en este 
curso, representa adecuadamente todas las caracteristicas que tiene la Poblacion. 

El Tamano de la Muestra 

Es el numero de elementos que conforman una muestra. 

Hay varias maneras de lograr los datos que necesitamos en una muestra. 

La Encuesta 

Es la recopilacion sistematizada de datos que logramos de una poblacion determinada 
y que luego transformaremos en informacion util. 

La Estadistica generalmente trabaja sobre la base de muestras que se logran mediante 
las encuestas. 

Precisamente, la primera tarea que realizaremos para iniciar nuestro trabajo, sera di- 
senar una encuesta con las variables codificadas. 

Diseno de una encuesta 

Para disenar una muestra, debemos definir las variables que vamos a usar. 

Vamos a suponer que deseamos saber algunas caracteristicas de los empleados de una 
empresa que produce bienes para el mercado nacional. 

Para estructurar y dar los nombres a nuestras variables, hacemos click en el modo Va¬ 
riable View que aparece al lado de Data View en la Pantalla 1.1 

A1 hacer click en Variable View, se nos presenta la Pantalla 1.2 

Supongamos que la primera primera variable que deseamos definir de las personas 
que seran encuestadas, se refiere a su genero: hombre o mujer 

En la fila No. 1 bajo la columna “Name”, escribimos el nombre abreviado de genero 
De esta manera, el nombre de nuestra primera variable sera “gene”. 
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El ahorro de letras para nombrar a las variables es muy importante, como veremos 
despues; por otra parte, hay una casilla especial para poner el nombre completo. 

Observese que a la derecha de “Name” esta la casilla “Type”. 

A1 pulsar en la casilla bajo la columna Type se nos aparece la leyenda “Numeric”. 

Pantalla 1.2 

~*iii £ y ^ — IT 


Click en esa casilla; de inmediato nos encontramos con tres puntos. 

Click en esos tres puntos y tenemos la siguiente caja de opciones: 

En la Caja 1.2 vemos una columna con varios nombres. 

Cada uno de esos nombres establece la caracteristica de nuestra variable 


La variable “gene” es cualitativa (ya la vamos a definir) y debe ser clasificada como 
“string” en la lista de opciones del cuadro 1.1. 

Sin embargo, para usarla apropiadamente, la convertidos en “Numeric” es decir, en 
una variable que pueda ser cuantificada 

Caja de Dialogo 1.2 


Variable Type 


o Numeric 
O Comma 
ODot 

C Scientific notation 
©Date 
O Dollar 

© Custom currency 
O String 

C Restricted Numenc (integer with leading zeros) 


widtfv 


Decimal Places I2 




The Numenc type honors the digit grouping selling while the Restricted 
w Numenc never uses digit grouping 


OK 


J Cancel 


Help 
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En la Caja 1.2 vemos una columna con nombres multiples; cada uno de esos nombres 
describe las principales caracteristics de la variable que vamos a usar. 

Esta es la razon de que en el menu de opciones de la Caja 1.2 escojamos “Numeric” 
Ahora, definamos algunos tipos de variables. 

Variables Cuantitativas 

Las conocemos como variables numericas; este tipo de variables son las mas comunes 
en los estudios estadisticos, pues varian en su magnitud. 

Variables Categoricas 

Son las variables cualitativas y se dividen, a su vez, en dos grandes ramas: las variables 
nominales y las variables ordinales. 

Variables Nominales 

Son aquellas que no pueden ser clasificadas ni en una magnitud cuantitativa ni en una 
magnitud de jerarquia. 

Por ejemplo, las categorias de genero; varon, mujer, que es la variable que vamos a 
codificar, son variables de ese tipo. 

Variables Ordinales 

L as que aceptan una jerarquizacion de importancia. 

El grado de Educacion de las personas, por ejemplo, es una variable nominal, puesto 
que puede ser calificado de acuerdo a un orden, v.g, descendente. 

La variable “genero” es una variable cualitativa-nominal, la que sera codificada como 
numerica cuando necesitemos usarla. 

La variable “gene” es una variable cualitativa y deberia ser clasificada como “string” 
en la lista de opciones de la Caja 1.2 

Sin embargo, para usarla apropiadamente, la convertimos en “Numeric”, esto es, en 
una variable que puede ser cuantificable 

Esa es la razon por la que escogemos “Numeric” del menu de opciones de la Caja 1.2. 

Codificacion de la variable “genero” para estructurar una muestra 

Una vez que hicimos “clic” en la casilla “Numeric”, pulsamos OK 

La siguiente columna (witdh) nos pide establecer el ancho de la columna para la varia¬ 
ble gene; hacemos clic en la casilla y aparece un menu de opciones 

Pulsamos hasta 6, que sera el ancho de nuestra columna 
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En la columna “Decimals” escogemos 0 

En la columna “Label” (etiqueta) ponemos el nombre formal de gene, en este caso, 
Genero, pues ese sera el nombre que constara en el informe final. 

La siguiente columna se refiere a “Los Valores” que daremos a los generos femenino y 
masculino; en realidad aqui es donde codificamos la variable nominal “Genero” 

Codificar significa dar a cada uno de los generos un numero que lo identifique 
Para ello, hacemos clic en la casilla donde aparece la palabra “None” 

Ahora nos encontramos con tres puntos a los cuales senalamos con el clic del mouse. 
Inmediatamente aparecera la Caja 1.3. 

Caja de Dialogo 1.3 

Value Labels IflESsi 

Value Labels 

value 
Label 


_I 

Remove 


OK Cancel Help 

En la casilla, al lado de “Value” anotamos “1” 

En la casilla al lado de “Label”, anotamos: “Mujer” 

Luego pulsamos Add y en la pantalla de abajo aparecera “ 1 = Mujer” 

La casilla al lado de Value aparecera otra vez vacia. 

Anotamos “2” y “Hombre”, respectivamente y no olvidamos de pulsar Add 
En la pantalla inferior aparecera 2 = “Hombre” 

La Caja 1.4 muestra el resultado del proceso. 

Pulsamos OK y nos transportamos otra vez a la Pantalla Variable View 
Alii vemos como quedo estructurada nuestra primera variable: gene. 

Dejamos para mas adelante las demas columnas. 

La Pantalla 1.4 (Variable View) muestra lo que hemos conseguido hasta ahora. 



leiunj 
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Caja de Dialogo 1.4 



Ahora regresamos a “Data View”, haciendo click en la casilla inferior izquierda de la 
pantalla para ver como nuestra primera variable, gene, aparece en la primera columna 

Hemos estructurado nuestra primera variable, despues de convertirla en numerica 
En cada columna de Pantalla 1.4 se muestra cada caracteristica de la variable. 


Supongamos que la segunda variable es la edad. 

Con esta variable no hay problema, pues es cuantitativa y no necesita se codificada. 

En la pantalla Variable View anotamos las caracteristicas de la variable 

Nos interesa el nivel de educacion, que es una variable Categorica ordinal 
Pero, al igual que gene la convertimos en Numerica. 

Hasta el momento, hemos codificado las variables en el caso de que fueran categoricas, 
ya se nominales u ordinales, pero que debiamos escoger una de ellas 

Por ejemplo, la variable idio, que es ordinal, no tiene esa limitacion. 

Una persona puede hablar mas de un idioma 


Pantalla 1.3 
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Por lo tanto, registramos en la pantalla Variable View cada idioma por separado. 
La Pantalla Variable View queda estructurada como se muestra en Pantalla 1.3 

La Pantalla de Data View queda como se muestra en la pantalla 1.4, a la que hemos 
puesto valores en cada casilla, simulando una mini-encuesta 

Pantalla 1.4 


‘UrtMlcdl |0«uW>; • IBM 0«e» £<!.** 

rat £»i '.** gau Transform Krutsz* D»r»au»tHft3 frapm ^ h«ic 


aws bb «- -• jgfca as a a „» *% *» 

1 I |M t 


1 

•4*1 

•due 

cast mg ayma 

w 

VM 

V* 



w 

1 1 

2$ 

4 1 2 1 







2 2 

34 

21 ii 
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De esta manera, hemos estructurado el formulario de nuestra primera encuesta 



MEDIDAS DE TENDENCIA 
CENTRAL 


Una Medida de Tendencia Central es el punto medio de una distribution de datos. 

Ahora estudiaremos las caracteristicas de las mas importantes medidas con breves 
ejemplos manuales y tambien haciendo uso del SPSS. 

La Media Aritmetica 

La conocemos como el promedio de una serie de datos. 

Supongamos que deseamos saber el promedio de la edad de 6 personas que estan en 
un consultorio medico, haciendo un tratamiento especial. 

Para conocer ese promedio, sumamos las edades de todos y cada uno; luego dividimos 
el resultado entre 6, que es el numero de personas que nos interesa. 


Media aritmetica = (40 + 34 +28 + 10 + 23 + 50)/6 = 30.83 

La media aritmetica o promedio de las edades de las seis personas es 30.83 anos. 
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Si queremos saber el ingreso promedio de 5 amigos para ir a tomar un cafe, pregunta- 
mos a cada uno cuanto tiene y luego hacemos lo mismo que en el caso anterior 

Los datos, hipoteticos, que obtenemos de los cinco son los siguientes: 

El primer amigo tiene $4 
El segundo, $20 

El tercero, $12 
El cuarto, $9 
El quinto, $13 

Media aritmetica = (4 + 20 + 12 + 9 + 13)/5 = 11,60 

El resultado nos hara saber que, en promedio, se tiene 11 dolares con 60 centavos, in- 
dependientemente de la suma que cada uno tenga en la realidad. 

Ese es el concepto fundamental de la media aritmetica. 

Luego veremos porque es tan util. 

No importa cuan pequena o grande pueda ser el conjunto de datos que se nos presen¬ 
te, la media aritmetica siempre tendra la misma definition: 

La suma de todos los valores, dividida entre el numero de casos. 

Usando simbolos, tendremos: 

X* = XXi/n 


X* es la media aritmetica de la muestra que hemos tornado; Xi, representa a cada uno 
de los valores que seran sumados; n es el numero de observaciones. 

La misteriosa X indica que todos los valores Xi deben ser sumados. 

Empezando con el SPSS 

Definida conceptualmente la Media Aritmetica vamos al SPSS 

Para realizar estos ejercicios, el SPSS cuenta con una lista de Samples, esto es, datos ya 
registrados que nos ayudan a realizar los ejercicios requeridos 

Supongamos que deseamos saber la media aritmetica de los sueldos actuales que reci- 
ben los empleados de una empresa determinada. 

Supongamos que deseamos saber la media aritmetica de los sueldos actuales que reci- 
ben los empleados de una empresa determinada. 

En el paquete del SPSS hay una gran base de datos que viene con el programa 
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Para mostrar como llegar llegar a esos archivos, traemos a esta pagina un segmento de 
la pantalla de SPSS. 

Pantalla 2.1 

OflMlfdJ {DtfsSetl] - IBM 5P« Fdrtrx~ 

Ft* E OB Wrw Data Transform *\at*ze Deed U jn t*og Graphs Utftftes am«is VYlndo* H»< 

EJ «- -x H !Sii 


- “ «4 ^ ^ 


Con el mouse vamos al menu principal de la Pantalla 2.1 y ejecutamos los siguientes 
comandos en el orden que se anota a continuacion 


Click en Menu —> File —> Open —► Data 

Se nos presentara la Caja 2.1; ahi estan todos los archivos que trae el SPSS bajo el titulo 
de Samples. Esos archivos estan registrados por orden de abecedario 


Caja de Dialogo 2.1 


^ Open Data 


Loo* in i, Eng*sh 


*i accidents sav 
si a<> mv 
siadweitsarw 
si aftatojun sav 
*i aflatourtfO saw 
si anowecbc 5 *. 


File name 


1 jitiliZ 


si anticowMjlsants sa» 
si tan do an sj* 
si fcandoan.&nnmg uv 
si DanDoan.es sa. 

*i DanDo an.cs.noweiQUts saw 
si Denavtor saw 


si oehawiocjni saw 
si Desires saw 
si Dreatfastsav 
si DreatfasLw*'# 1 sat* 
si DcoadDand.t Taw 
si DroadDand_2 saw 


:h 


Files of type SPSS Statistics r saw) 


UBnimct stnng wusn s Dased on oDseewed values 
Retnewe Fee From Repcs 4 or r 


[ J 

Carve** 

H«W 


Los archivos son usados para que realicemos los ejemplos necesarios en cualquier te- 
ma que convoque alguna funcion del menu 
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Ahora necesitamos encontrar el archivo Employee data.sav 
La extension *.sav nos indica que el archivo pertenece al SPSS 


Encontrado el archivo, Click Open y tendremos la Pantalla 2.2 del SPSS en la modalidad 
Data View, de la cual traemos un fragmento para analizar los datos. 


Pantalla 2.2 


l~**:re* (MUw [OwUSeU] - IBM SPSS SUbstci OaU 
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1 m 

02/03/1952 

15 

3 

$57 000 

$27 000 

98 

144 

0 

2 


2 m 

05/23/1958 

16 

1 

S40 200 

$18 750 

98 

36 

0 

3 


31 

07/26/1929 

12 

1 

$21450 

$12 000 

98 

381 

0 

4 


41 

04/15/1947 

8 

1 

$21900 

$13 200 

98 

190 

0 

S 


5 m 

02A»/1955 

15 

1 

$45 000 

$21 000 

96 

138 

0 

6 


6 m 

08/22/1958 

15 

1 

$32100 

$13 500 

98 

8 7 

0 

7 


? rri 

04/28/1958 

15 

1 

$36 000 

$18 750 

98 

114 

0 

8 


8f 

05/06.1966 

12 

1 

$21900 

$9 750 

98 

0 

0 

8 


9 f 

01/23/1946 

15 

1 

$27 900 

$12 750 

98 

115 

0 


Notamos que en la esquina superior derecha esta el nombre del archivo que estamos 
usando: Employee data.sav 


Nuestra tarea consiste en averiguar la media aritmetica de los salarios actuales que re- 
ciben los trabaj adores de la empresa 

Con el curso apuntamos a la casilla Salary por algunos segundos sin hacer ckick 
Aparecera una leyenda complementaria: Current Salary (Salarios actuales) 

Current Salary es el nombre formal de salary 

Sin embargo, de entrada vemos que hay un problema. 

Los salarios estan registrados con el signo $ = dolar 

Para calcular la media aritmetica tenemos que cambiar los datos al tipo Numerico 

Para el efecto, realizamos la misma operation que hicimos en el capitulo anterior 
Vamos a repetir el procedimiento 


De la modalidad Data View pasamos a la de Variable View 

Alii estan registradas todas las caracteristicas de la variable salary 

En la columna Type, observamos que nuestra variable, salary, esta inscrita en dolares 
Para cambiar a la funcion Numeric usamos los siguientes comandos 

Click —*■ Dollar —*■ click en los tres puntos... 
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La Caja 2.2 nos muestra que nuestra variable esta registrada en terminos de dolar 


Caja de Dialogo 2.2 


t-* Veneble Type 


O Numeric 
C Comma 
ODot 

O Scientific notation 
O Date 
i gbojiy] 

O Custom currency 
O String 

O Restncted Numenc (integer with leading zeros) 


& 


1 OK j 1 Canol H*.p 



The Numeric hpe honors the digit grouping se&ng while the Restricted 
Numenc never uses digit grouping 


Click —> Numeric —*■ OK 
El SPSS nos trae la pantalla 2.3: 

Pantalla 2.3 


£* dr* j#. [D*rfct4| - »M ftite fa Dr ■ Cd.tc* 

fU gat Vtaw Data Transform Anal^t Ovad Uarratng Graces yim*s Add-ons Wrvdo* Halt) 

E3 H *i Mi B^a! 



•d 9* 

nd 

tt 

bdfll* 

•due 

fOtCM 

Mlary 


jottin* 

pr**xp 

mrnonty 

1 

1 m 

02703/1*52 

15 

3 

57000 

$27,000 

98 

144 

0 

2 

2 m 

0W3/1SM 

16 

1 

40200 

$18 750 

98 

36 

0 

3 

3 f 

07/2671S2S 

12 

1 

21450 

$12 000 

98 

381 

0 

4 

41 

04/15/1*47 

8 

1 

21900 

$13200 

98 

190 

0 

s 

5 m 

02*9/1*55 

15 

1 

45000 

$21000 

96 

138 

0 

6 

€ m 

0*22/1*58 

15 

1 

32100 

$13 500 

98 

€7 

0 

7 

7 m 

04/26/i*5« 

15 

1 

36000 

$18 750 

98 

114 

0 

8 

• 1 

05'06<19*6 

12 

1 

21900 

$9 750 

96 

0 

0 


Alii vemos que el signo $ = Dolar ha desaparecido 

Ahora si, estamos listos para averiguar la Media Aritmetica de los salarios mensuales 
que reciben los trabajadores, empleados y ejecutivos de la empresa 

Menu —> Analize. 


Se nos presentara un menu vertical de opciones; pulsamos Estadisticos Descriptivos 
A la derecha aparecera otro cuadro, del cual escogemos Descriptivos 
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De inmediato nos damos cuenta que las variables estan registradas con sus nombres 
formales; tambien vemos un cuadro en bianco a la derecha. 


Pulsamos Current salary en el cuadro de la izquierda y tambien en la flecha que apunta 
a la pantalla en bianco de la derecha; Current Salary se trasladara a esa pantalla 


Se nos presentara la Caja 2.3 con las variables de Employee data.sav a la izquierda. 

Caja de Dialogo 2.3 


Descriptive* 


$ Employee Code I *J 

<j£ Date of Birth (Pda 
j| Educational Leve 
u J Employment Cat 
Current Salary [s 

# Beginning Salary. 

Months since Hir 

# Previous Expene ^ 

rl IJ»n/intv r*lacc«f>r 

E Save standardized values as vanables 

CZJ 


VanaDle(s): 


Options 


Bootstrap 


Reset j [ Cancel 


Help 


Click en Options y el SPSS nos muestra el cuadro pequeno dentro de la pantalla 2.4 


Pantalla 2.4 


l» 
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3 
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91 
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t 
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16 


« 
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91 

36 

) 

U 

07/26/1929 

12 


f 

214S0 

H2 000 

96 

Ml 

4 
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B 


1 

21900 
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96 

190 

s 
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02O419SS 

IS 


1 

4S0C0 

121 000 

91 

1M 

( 

im 
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IS 


1 

32100 

113 S00 

91 

67 

7 

7 m 

0*26.1956 

IS 


1 

36000 

S1I7S0 

91 

114 

• 

• f 

06.041966 

12 


1 

21900 

19 750 

91 

0 

9 

91 

0V2>194i 

IS 


1 

27900 

112 750 

91 

Its 

ID 

*01 

021M94S 

12 


1 

2*000 

113 S00 

91 

24* 

it 

111 

020M960 

16 


f 

30300 

116 500 

9» 

143 

12 

t2 m 

0V1V1966 

B 


1 

29350 

112 000 

91 

26 

13 

Oat 

07/17.-1940 

IS 


1 

27750 

114 250 

96 

1* 

'X 

Ut 
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IS 


1 

35100 

116 900 

91 
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IS 

IS m 

0429*1942 
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1 

27300 

113 500 

97 

66 

IS 

Km 

11/17/194* 

12 


1 

*0600 

115 000 

97 

24 

IT 

17 m 

07/14*1942 

IS 


1 

*6000 

SW 250 

97 

41 

IB 

ttm 

0324*1964 

16 


3 

103750 

$27 StO 

97 

70 

19 

19 m 

0919*1962 

12 


1 

42300 

SU 250 

97 

103 



Hay varias opciones; por el momento solo nos interesa la Media, por lo tanto pulsamos 
todos los botones para borrarlas y nos quedamos solo con el boton respectivo 
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Mean —► Continue —> OI< 

El SPSS nos lleva a una pantalla de Resultados 

Es en esa pantalla donde el SPSS anota los resultados de los trabajos que realizamos 
con los datos del modo Data View 

En esa Pantalla de Resultados se consigna la Tabla de Resultados 2.1 


Tabla de Resultados 2.1 



N 

Mean 

Current Salary 

474 

34419,57 

Valid N (listwise) 

474 



En la figura Cuadro de Resultados 2.1,1a columna bajo la letra N senala el numero de 
trabajadores de la empresa, 474 

La columna etiquetada con Mean nos da el valor de la Media Aritmetica 
Mean = $34,419,57 

Para borrar la pantalla de resultados, dirigimos el Mouse a la esquina superior izquier- 
da, hacemos click en la casilla Output y borramos con la tecla de supresion del teclado. 

Si pulsamos las opciones Minimun y Maximun Continue —> OK tendremos la Tabla de 
resultados 2.2 

Tabla de Resultados 2.2 



N 

Minimum 

Maximum 

Mean 

Current Salary 

474 

15750 

135000 

34419,57 

Valid N (listwise) 

474 





La columna Minimun muestra que el salario mas bajo registrado es 15.750. 

El dato bajo la columna Maximun nos dice que el salario mas alto es 135.000. 

Hay muchas mas opciones para complementar la information que viene con la media 
aritmetica, las que usaremos despues 

Por el momento, debo decir que Nuestro primer objetivo esta cumplido: 
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Hemos logrado calcular, usando el SPSS, la media aritmetica de los sueldos y salarios 
que reciben los 474 empleados que trabajan en la empresa. 

Pero, en el proceso hemos cumplido otra tarea importante: aprender algunos coman- 
dos basicos del SPSS 

Como un ejercicio muy util pueden estimar la media aritmetica de los salarios que tenia 
cada trabajador el dia que ingreso a la empresa. 

Esos datos estan en la columna salbegin del menu de la pantalla 

La Media Aritmetica es la medida de tendencia central mas conocida y usada que todas 
las demas, tiene un punto debil que debemos tomar en cuenta 

Es muy susceptible a variar con los valore extremos 

Para constatarlo, usemos como ejemplo el ejercicio manual referido a los ingresos 
Dijimos que la media aritmetica de los ingresos de cinco amigos era: 

(4 + 20+12 + 9 + 13)/5 = 11,60 

Ahora supongamos que aparece uno mas y se suma a la propuesta de tomar cafe 
Asumamos que su ingreso es $100 

Sumamos la nueva serie y la dividimos entre 6 

(4 + 20 + 12 + 9 + 13 + 100)/6 = 26.34 

La nueva media se ha incrementado en mas del doble por la inclusion de un valor alto 

Cuando creemos que hay valores extremos como el caso anterior ya no usamos la me¬ 
dia aritmetica, sino que recurrimos a otra medida de tendencia central: la Mediana 

La Mediana 

Es el valor que esta mas al centro de un conjunto de datos ordenados 
Para consolidar el concepto, realicemos primero un ejercicio manual 

120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750 

Observemos que los datos estan ordenados de menor a mayor 

En este caso, la Mediana es $380, pues este valor hace que el conjunto de observacio- 
nes a su izquierda (5) iguale al conjunto de observaciones a su derecha (5) 

Pero, al igual que la Media Aritmetica, si queremos estimar la Mediana de 5000 obser¬ 
vaciones, el trabajo se hace pesado 
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Sobre todo si tenemos que expresar los valores en forma ascendente, desde el mas 
pequeno al mayor 

Para evitarnos esa descomunal tarea, convocamos a nuestro amigo SPSS 
Vamos a realizar el ejercicio con el SPSS sobre el archivo Employee data.sav 

Utilizamos los mismos comandos que en el ejemplo de los salaries 

Menu —> Open —> Data —> Employee data.sav —> Open 

Una vez que tenemos el archive abierto pulsamos la siguiente serie de comandos: 

Menu —> Analize —> Descriptive Statistics —<• Frecuencies 

La Caja que inscribe la lista de las variables del archivo que vamos a utilizar aparece 
en la pantalla 

Click en Current Salary en la flecha de direccion 

La variable Current Salary, se trasladara a la pantalla de la derecha 

En el nuevo cartel de opciones presionamos el boton Statistics 
Tendremos la Caja 2.4; en la parte derecha hay un menu de opciones 

Caja de Dialogo 2.4 

tj) Frequencies: Statistics ifldl 

Cental Tendency 

[ Mean 
l Median 
l Mode 
| Sum 


Values are group midpoints 

- DtStribuDon-1 

Skewness 
Kuftosis 

[continue] Cane* J(_ Help J 


Percentile Values 

E lQuafUes 

Cut points for 0 equal groups 
Pefcentle(s) 


Dispersion 

SW deviation C Minimum 
1 variance Map mum 

Range S E mean 


Median —»• Continue —»• OK 

La Pantalla de Resultados nos muestra algo que no teniamos en mente, esto es, todas las 
observaciones que estructuran el archivo, algo que no necesitamos 
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Para solucionar el problema borramos la pantalla de resultados y volvemos a ejecutar 
los primeros comandos, tal como sigue: 

Menu —> Analize —> Descriptive Statistics —> Frecuencies —> Statistics —> Median —> continue 
En este punto aparece la Caja 2.5 


Observemos que en la parte inferior izquierda el boton: Display frequency tables esta 
habilitada; esa opcion es la que nos trajo la lista de todos los trabajadores 

Caja de dialogo 2.5 



Hacemos clik en ese boton para eliminar la opcion respectiva y luego presionamos OK 
La Tabla de Resultados ha disenado la Tabla de Resultados 2.3 


Tabla de Resultados 2.3 


N 

Valid 

474 

Missing 

0 

Median 

$28,875 


La Mediana de los salarios del personal de la empresa es $28,875 
Este indicador es menor que el valor de la Media Aritmetica: 34419,57 


La diferencia se debe a que la Media Aritmetica estaba sesgada hacia los valores muy 
altos y no reflejaba la verdadera situation de los promedios salariales 


Pero el repertorio de las medidas de tendencia central no acaba aqui, pues tenemos 
otra de igual importancia que las demas. 
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La Moda 

Es el valor que mas se repite en el conjunto de datos y que los griegos que deseaban 
fabricar una torre para desbaratar la ciudad sitiada utilizaron como indicador. 

Tomemos los datos utilizados en la mediana, pero lo transformemos de tal manera que 
el valor 260 se repite tres veces; en ese caso la Moda sera 260. 

120, 140, 200, 240, 260, 260, 260, 380, 390, 450, 630, 700, 750, 780 

La Moda se aplica en el caso de que haya varios valores repetidos en la muestra. 

Para disponer de la Moda, seguimos la siguiente serie de comandos ya conocidos 

Menu —► Analize —* Descriptive Statistics —> Frecuencies —<• Statistics —> Mode —> Continue 

Tendremos en pantalla la Tabla de Resultados 2.4 en la que en vez del boton Median, 
pulsamos Mode —► OK 


Tab! 

a de Reultados 2.4 

N 

Valid 

474 


Missing 

0 

Mode 

$30,750 


La Moda es $30,750, valor que es el que mas se repite en el archivo Employee data, save 
En este caso su valor es mayor a la Mediana, pero menor que la Media 

Cuando lleguemos al capitulo de las distribuciones, usaremos una grafica de distribu¬ 
tion para comparar la media aritmetica, la mediana y la moda, entre si. 

Mientras tanto, diremos que, de todas las medidas de tendencia Central, la Media 
Aritmetica es la mas utilizada. 

Tales son las medidas de tendencia central mas importantes. 

Ahora analizaremos las medidas de dispersion 

Medidas de Dispersion 

Vimos que las medidas de tendencia central identifican un valor que se acerca mas al 
centro de una serie de datos o de elementos. 

Las medidas de dispersion nos muestran el grado en que se alejan del centro. 

La primera medida de dispersion, la mas simple, es el rango. 


23 










El Rango 

Es la diferencia entre el valor mas alto y el mas pequeno de los datos. 

Acudamos otra vez a las serie de datos utilizados para calcular la Mediana: 

120, 140, 200, 240, 260, 260, 380, 390, 450, 630, 700, 750, 780 

El Rango sera 780 - 120 = 660 

A1 igual que para el calculo de la Mediana, el SPSS ordenara cualquier conjunto de da¬ 
tos que no esten ordenados. 

El Rango nos da una primera perception sobre las diferencia extremas que median en 
una serie de datos, en este caso, en un registro de salarios. 

Medidas de desviacion promedio 

Calcula la desviacion promedio entre los valores de una serie de datos y una medida 
de tendencia central; primero nos interesa el concepto. 

La Varianza 

Es la media aritmetica del cuadrado de las desviaciones respecto a la media de una 
distribution estadistica; la varianza de la muestra se representa por S 2 

Para aclarar el concepto, tomemos los siguientes datos: 2, 4, 6, 8, 10 
La media aritmetica sera: (2+ 4 + 6 + 8+ 10)/5 = 30/5 = 6 

Con ese dato, analicemos los valores originales. 

El valor 2 se desvia en - 4 de la media aritmetica (2 - 6 = - 4) 

El valor 4 se desvia en - 2 unidades: (4 - 6 = - 2) 

El valor 6 no se desvia de la media aritmetica: (6-6 = 0) 

El valor 8 si se desvia en 2 (8 - 6 = 2) que es una desviacion positiva. 

Lo mismo sucede con el valor de 10, su desviacion positiva es4(10-4) = 6 

Si desearamos estimar la media aritmetica de estas desviaciones nos encontrariamos 
que su valor seria 0, pues los valores positivos anularian a los negativos. 

Para eliminar este problema no tomamos en cuenta la desviacion simple de cada ob¬ 
servation con la media aritmetica; mas bien elevamos cada desviacion al cuadrado 

Lo hacemos asi, porque una cantidad elevada el cuadrado, ya sea positiva o negativa, 
siempre nos dara un resultado positivo, que es lo que se busca. 

La suma de los cuadrados de esas diferencias sera dividida por el numero de observa- 
ciones, que es 5, al que le restaremos 1. 
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Asi lo determinaron los grandes matematicos. 

El denominador sera 5-1 

S 2 = [(2 - 6) 2 + (4 - 6) 2 (6 - 6) 2 + (8 - 6) 2 + (10 - 6) 2] ]/(5 - 1) 

S 2 = [(-4) 2 + (-2) 2 + (0) 2 + (2) 2 + (4) 2 ]4 = [(16 + 4 + 4 + 16)]/4 = 40/4= 10 

En consecuencia diremos que la Varianza de la Muestra es 10 

Cuando el numero de observaciones es alto, el calculo de la varianza se hace muy pe- 
sado por lo que recurrimos, como de costumbre, a nuestro amigo el SPSS 

Volvamos a nuestro file Employee data.save 

Analize —► Descriptive Statistics —>■ Descriptives —► Currente Salary —> Options 

En la Caja que aparece, puede haber varios botones que esen marcados 
Los desemarcamos y dejamos solo —► Variance —> Continue —> OI< 

En la tabla de resultados tendremos la Tabla de Resultados 2.5 


Tabla de Resultados 2.5 



N 

Variance 

Current Salary 

47 

4 

291578214 

Valid N (listwise) 

47 

4 



La Desviacion Tipica de la Muestra = s 

Es la raiz cuadrada de la Varianza: s = Vs 2 

En este caso, s = raiz cuadrada de 291578214,453 = V291578214 = 17075 
Pero vayamos al SPSS para estimarla debidamente 

Analize —> Descriptive Statistics —> Descriptives —> Currente Salary 
Options —*■ Std.deviation —> Continue —> OK 


Tabla de Resultados 2.6 



N 

Std. Deviation 

Current Salary 

474 

$17,075 

Valid N (listwise) 

474 



Confirmamos que la desviacion estandar de los salarios es, efectivamente, $17,075 
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El Coeficiente de Variation 

Es la relacion entre la desviacion tipica y la media de la muestra: s/X* 

En el desarrollo de los indicadores estadisticos de Current Salary, vimos que la media 
aritmetica es 34419 y la desviacion estandar es 17,075 

17075 

Coeficiente de Variation = s/X * = -= 0.50 

34419 

Las medidas de tendencia central y de dispersion que hemos analizado son los indica¬ 
dres basicos de la Estadistica Descriptiva. 

Mas adelante estableceremos la utilidad de estos indicadores. 

Hasta ahora hemos estimado cada indicador por separado 

Lo hicimos asi para que logremos una adecuada conceptualizacion de cada una 

Sin embargo, en los problemas reales no estamos interesados solo en un indicador, 
sino que requerimos un conjunto de todos ellos 

Haremos un ejercicio integral para obtener todos los indicadores que hemos visto has¬ 
ta ahora sobre la variable Current Salary” del archivo Employee data.sav 

Analize —> Descriptive Statistics —»Frequencies —> Currente Salary —> 

—>(borrar display frequency tables) —*■ Statistics —> Options —*■.Mean —> Median —> Mode 
—>Minimum —*■Maximun —*■ Range —> Std. deviation —> Variance —> Continue —> OK 

Tabla de Resultados 2.7 


N 

Valid 

474 

Missing 

0 

Mean 

$34,419.57 

Median 

$28,875.00 

Mode 

$30,750 

Std. Deviation 

$17,075,661 

Variance 

291578214,453 

Range 

$119,250 

Minimum 

$15,750 

Maximum 

$135,000 


Con este ejercicio concluimos el capitulo referido a los indicadores mas importantes de 
la Estadistica Descriptiva. 
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BISTRIBBCION BE 
FRECBENCIAS 


Concepto 

Una distribucion de frecuencias es una tabla en la que organizamos los datos dividien- 
dolos en Clases o grupos que describen alguna caracteristica de la poblacion. 

Si no dividimos los datos en grupos, cuando pidamos, v.g, las frecuencias de los sala- 
rios, el SPSS nos dara un cuadro con el salario de cada uno de los empleados. 

Si la fabrica tiene 2000 empleados, tendremos un cuadro de 2000 salarios. 

Sin embargo, cuando necesitamos las medidas de tendencia central o cualquier otra, el 
SPSS acudira a los datos originales, no a los grupos. 

A no ser que, por alguna razon, necesitemos la media u otro estadistico de cada uno de 
los grupos. 

Una distribucion de frecuencias muestra el numero de observaciones del conjunto de 
datos que caen en cada una de las clases en las que hemos dividido los datos. 

Utilizaremos el SPSS y el archivo Employee data.sav para construir el cuadro de fre¬ 
cuencias del salario actual ( Current Salary) de los empleados de la empresa. 

Menu Principal —* Transformar —> Recodificar en distintas variables. 

Abierto ya el cuadro de dialogo vemos dos pantallas. 

La pantalla de la izquierda contiene todas las variables; escogemos Current Salary y la 
trasladamos a la pantalla de la derecha, haciendo click en la flecha de direccion. 

La casilla Current Salary ha cambiado a salary, que es el nombre que aparece al co- 
mienzo de la columna respectiva, mientras que Current Salary, es la etiqueta formal 

En el cuadro aparece un signo de interrogation despues de salary, eso significa que el 
SPSS nos pide dar un nuevo nombre a la variable que vamos a recodificar. 

En la parte derecha hay dos casillas: una que dice nombre y la otra etiqueta. 
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Ingresamos a la casilla “nombre” y registramos el nombre que deseamos ponerle a la 
nueva variable, digamos rsalay (Podria ser cualquier otro) Cuadro 3.1 

Caja de Dialogo 3.1 


[JjJ frequencies 


# Employee Code[.. 

- 

Gender [gender] 


45 Date of Birin [t>da 


a | Educational Leve.... 


J Employment Cat 


£ Beginning Salary ~ 


# Months since Mir 


# Previous Expene 

r—J 

1 sW UUiAnfv PlaccKlr 

v | 



vanaWe(s) 

S Current Salary [salary] 


jStajjsNcs^j 

Charts 

Format 

Bootstrap 


V Display frequency tables 


l 


OK 


Paste Reset 


( - v ( - 

Cancel Help 

V . J Vtfiiiii . iJ 


En la casilla “Etiqueta” ponemos el nombre formal Salario Actual-, pulsamos la casilla 
que esta debajo de Label, Cambiar 

La variable rsalay ocupa el lugar donde estaba el signo de interrogation, tal como se 
muestra en el Cuadro 3.2. 

Caja de Dialogo 3.2 



Asi, hemos estructurado una nueva variable, rsalay, sobre la base de la variable salary; 
de sde este momento, el SPSS tratara a la nueva variable como independiente. 

Ahora pulsamos en la casilla de la parte inferior: Valores antiguos y nuevos debajo de la 
pantalla blanca, y tenemos un cuadro de dialogo 
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El cuadro 3.3 es el que nos ayudara a dividir nuestros datos en clases. 


Caja de Dialogo 3.3 


Accodc mto Different V«*bles. Old and New Values 


- mm 
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O System- or u**f-*T*ii*v 3 




O Range 


dg-vNew 



O Range LOWEST tvoggn »a*ue 





O Range value trough HIGHEST 






Output vanafiies are amngs 


O Metier values 

■ 


[Con*ftu»| C4BO 



Lo que vamos a hacer es codificar las clases, como codificamos la variable sexo. 

Clase 

Es un intervalo con valores minimos y maximos en que dividimos los datos para anali- 
zar mas apropiadamente sus indicadores. 

El numero de clases en que se divide el total de los elementos de un archivo, depende 
del volumen de datos y de la perception del analista 

Sin embargo es necesario tener una idea de los valores minimos y maximos de la va¬ 
riable cuyos elementos seran clasificados en grupos o clases 

En este caso, dividiremos los datos en cuatro clases 

Para ello pulsamos el boton que dice: rango, en la parte izquierda del cuadro 
A1 hacerlo, se habilitaran dos casillas en bianco. 

En la primera registramos 15000; en la casilla de abajo, escribimos 45000. 

Asi tendremos el numero de empleados que ganan entre 15000 y 45000 al ano 

Vamos a la parte superior derecha click —> valor en la casilla anotamos 1. 

Click en Add y en la casilla inferior aparece 15000 trhu 45000 —> 1. 

La primera de nuestras clases incluiran todos los valores desde 15000 hasta 45000. 

Otra vez vamos a la izquierda click —> “rango” y anotamos 45001 en la casilla de abajo; 
vamos a la casilla inferior, donde dice “hasta” y anotamos 75000. 

Vamos al lado derecho —> “Valor”, anotamos 2 en la casilla respectiva —► Add 


29 










En la pantalla inferior aparecera otro registro despues del anterior. 

Esta vez con la leyenda que dice: 45001 thru 75000 —> 2. 

Para la tercera clase; anotamos 75001 en la casilla rango y 105000 en la que dice thru 

A1 lado derecho —>valor —> 3 —> Add 
Por ultimo, hacemos lo mismo para la cuarta: 105001 thru 135000 

A1 lado derecho valor —<• 4 

Ahora tenemos los datos completos tal como aparecen en el cuadro 3.4 

Caja de Dialogo 3.4 


Retcd* W*rt*r* V*r*to*ev C*d and Nrw V«iurt 

Oyahj# 

O §r*itnwnrjstr*g 
O of uswnniwvj 





O Rang*, LOWEST V»ou?i 
O Rang) «*ut frwougn MQHEST 


- 

Nm Vjfu* 

• Va«u« j 

O SiHtm-wunfl 


ISOOHru 4*000 -» 1 
45001 ffiru 75000 —* 2 
75001 ftru 105000 -* 3 
105001 Urol 36000 4 


Output vanaOtt-s art stmgs 


lo—1 LQmmTi OmD 


Continue —> O/T 


El SPSS nos lleva a la pantalla de resultados, pero los resultados no estan alii 
Estan en la ultima columna de Vista de Datos con el nombre rsala 

En la ultima columna de apareceran los intervalos codificados 1, 2, 3 y 4, de acuerdo 
con los valores de cada rango salarial. 

Graficas de las distribuciones de frecuencias: El Histograma 

Es una grafica que consiste en una serie de rectangulos, el ancho de cada uno mide la 
distancia que existe entre las cantidades que estructuran una clase estratificada. 


La distancia vertical nos da los valores para esa clase. 

Para obtener el Histograma respectivo procedemos del siguiente modo: 

Menu Principal —* Graficas —> Legacy Dialog —> Histograma 
Pulsamos en Histograma —> Titulos 

Escribimos el titulo Histograma de Salarios Actuales—*■ OK 
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Caja de Dialogo 3.5 



En la Pantalla de Resultados del SPSS veremos la Grafica 3.1 

Grafica 3.1 

Histograma de Salarios actuales 



El Histograma es de gran ayuda, especialmente cuando queremos comprobar si la dis- 
tribucion de una variable se aproxima a la normal, tal como veremos despues. 

Es un diagrama importante para los tecnicos en estadistica porque las clases estan re- 
presentadas por numeros, los que no dicen mucho a los ejecutivos de la empresa 

Por todo lo expuesto, deseamos es que en la Pantalla de Datos aparezcan, textualmente, 
los intervalos, tales como 15000 - 45000 para todos los rangos que hemos recodificado. 
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Vamos a Vista de Variables, la nueva variable, rsalay esta en la ultima fila 
En la columna Value, aparece el rotulo “Ninguna”. 

Click en los puntos y se nos abre el cuadro de dialogo que ya conocemos. 

En la casilla Valor anotamos 1 y en la que dice Etiqueta registramos 15000 - 45000, pul- 
samos Anadir y esta primera clase aparece registrada en la pantalla 


Pulsamos Add y la clase 15000 - 45000 aparecera en la pantalla inferior 

Caja de Dialogo 3.6 


Value Label; 


rvalue Labels -1 

Value: 1 1 Spelling 

Label: 15000 - 45000 


- 3C 

_1 



OK 


Cancel Help 


Realizamos el mismo ejercicio con las demas clases 

Caja de Dialogo 3.7 


Value Label; 




Value labels 



Spelling 


OK Cancel Help 


Pulsamos OK y el SPSS nos lleva a la Pantalla de Datos 
Para que las clases se vean, —» Menu —> Value Levels 
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En la ultima columna tenemos ya las clases debidamente codificados 

La primera clase 15000 - 45000 fue registrada sin ninguna variation, pero la siguiente 
empieza con 45001, para no repetir el valor de 45000; lo mismo con las demas. 

Ahora nos corresponde saber cuantas observaciones hay en cada clase. 

Frecuencias 

En la pantalla de Vista de datos, vamos al menu superior 

Analizar, —► Descriptive Statistics —► Frequencies 

Se abre el cuadro en el que la lista de variables esta a la izquierda. 

La nueva variable que buscamos esta al final con el nombre Salario actual (rsalay) 

Click —> Salario actual (rsalay) y con la flecha de direction la llevamos a la derecha 

Notamos que en la parte inferior izquierda el boton Display Frequency tables” esta ha- 
bilitada, ahora si lo necesitamos de ese modo 

Aceptamos. 

En la Pantalla de Resultados aparece el cuadro de frecuencias con las clases respecti 
vas; es el que nos servira para disenar nuestra primera distribution de frecuencias. 

Tabla de Resultados 3.1 



Frequency 

Per¬ 

cent 

Valid Per¬ 
cent 

Cumulative 

Percent 


15000 - 45000 

391 

82,5 

82,5 

82,5 


45000 - 75000 

66 

13,9 

13,9 

96,4 

Valid 

75001 -105000 

15 

3,2 

3,2 

99,6 


105001 -135000 

2 

,4 

,4 

100,0 


Total 

474 

100,0 

100,0 



En la Tabla de Resultados 3.1 observamos que hay 391 empleados que ganan entre 
15000 y 45000; el porcentaje de esos empleados ( Valid Percent ) es del 82% 

La misma interpretation tendremos para las demas clases. 

Como podemos observar, los salarios de los 474 empleados se han agrupado en cuatro 
clases, faciles de entender en vez de tener una lista con cada uno de los salarios. 
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Ademas, la division en clases nos sirve para disenar graficos importantes, tales como el 
histograma, las barras, la torta y otros similares 

Estructurar una Distribucion de Frecuencias 

El cuadro que aparece en la pantalla de resultados nos muestra el numero total de ca- 
sos, 474, y las clases salariales que habiamos estructurado. 

La clasificacion de los salarios en clases, con los rangos determinados, nos permite sa¬ 
ber cuantas personas hay en cada clase y graficar con mayor claridad los datos. 

Ahora queremos disenar el cuadro de distribucion de probabilidad de frecuencias 

Esto se logra anulando la ultima columna de la tabla 3.1, haciendo click con el boton 
derecho del mouse en el encabezamiento que dice “% acumulado”. 

Pero es necesario visualizar los datos sistematizados en clases. 

Eso es posible mediante la opcion Graficas 

Para llevar un informe mas claro a los ejecutivos, recurrimos a la grafica de barras. 

Para obtener las barras de frecuencias, pulsamos Graficas en el Menu Principal. 

Legacy Dialogs —*■ Bar —► Simple —> Define —> Recod (rsalay) —> Titles —> Grafica de sala¬ 
rios actuales —> Continue —> OK 

Grafica 3.2 


Grafica de Salarios 



Recod 


A diferencia del Histograma, la Grafica de Salarios registra, explicitamente, las clases 
que se han estructurado para los grupos salariales 


Grafico de Sectores (Pie) 

Usando el mismo procedimiento logramos la grafica de Sectores o Pie o cualquier otro 
que figura en la pantalla de graficas. 
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Graphs —> Legacy Dialogs —► Pie —► Define 



Con la flecha de direccion, arrastramos Recode(rsaly) a la casilla Define Slices by: 
Luego —> Tiles —*■ Grafica de Salarios Actales 

Grafica 3.3 

Grafica de Salarios Actuales 



Con esto concluimos la primera parte del uso de graficas; mas adelante recurriremos a 
estas y otras con diferentes significados y grados complementarios de utilidad 
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Hagamos una breve pausa para observar como vamos aprendiendo Estadistica y, al 
mismo tiempo, el uso del SPSS. 

Me parecio mas conveniente este metodo de “aprender sobre la marcha” en vez de 
dar un curso completo de cada dimension, una a la vez, por separado. 

Cuando terminemos el curso de Estadistico, en sus tres niveles, este es el primero de 
ellos, habremos aprendido mucho sobre la utilidad y el manejo del SPSS. 


4 

PROBABILIDAD 


Introduccion 

La probabilidad es la frecuencia de un suceso determinado que se logra por un expe¬ 
riment© aleatorio del que se conocen los resultados posibles, bajo condiciones dadas. 

Es la posibilidad cuantificada de que algo suceda. 

Aunque para resolver todos los problemas que se nos presenten acudiremos al SPSS, 
sin embargo, es necesario familiarizarnos con la clase de problemas a solucionar. 

Los precursores del calculo de probabilidades fueron Jacob Bernoulli (1674-1705) 
Thomas Bayes (1702-1761) Joseph Lagrange (1736-1813) y Carl Friedrich Gauss. 

La teoria de la probabilidad es la base de las investigaciones estadisticas en las inves- 
tigaciones de las ciencias sociales y en la toma de decisiones. 

En realidad, las llamadas “leyes” en las ciencias sociales son tendencias estadisticas 
avaladas por una teoria, las que pueden ser estimados con un grado de probabilidad. 

Conceptos basicos 

Evento : Uno de los posibles resultados de hacer algo. 

Si lanzamos una moneda al aire, saldra “cruz” o “cara”. 

Cada resultado sera un evento 

Experimento, la actividad que produce un evento; en este caso, el lanzar la moneda. 
^Cual sera la probabilidad de que una moneda, al ser lanzada, caiga “cara”? sera 0,5 
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Espacio muestrah al lanzar la moneda el espacio muestral es: {cara, cruz} 

Si dos eventos pueden ocurrir al mismo tiempo, seran no mutuamente excluyentes 
Si no pueden ocurrir simultaneamente, seran mutuamente excluyentes. 

La probabilidad de sacar una carta de un paquete de 52 cartas, sera 1/52 
La de sacar una reina sera 4/52, pues existen cuatro reinas en el mazo. 

La de sacar un trebol sera 13/52, pues hay 13 treboles en un mazo. 

La probabilidad de sacar una carta roja es 26/52, dado que hay 26 cartas rojas. 

La probabilidad de sacar un “as” al lanzar un dado es 1/6, porque hay seis numeros y 
un solo “As”: del mismo modo con los otros numeros. 

Probabilidad Clasica 

La probabilidad de que un evento ocurra es definida del siguiente modo: 

E = F/(T) 

E = Evento 

F = numero de casos favorables 
T = el total de casos 

En las cartas, el caso favorable de sacar una reina es 4 y el total de casos es 52. 

En los dados, el numero favorable de sacar un “cuatro” es 1 y el total de casos es 6. 

La probabilidad clasica es conocida tambien como probabilidad a priori. 

Se denominaria asi, porque las probabilidades de los resultados puede ser conocidos 
de antemano, tal como sucede con los experimentos de las cartas o los dados. 

Frecuencia relativa de la presentacion 

Es el porcentaje del resultado de casos favorables con relation al total de casos. 

Probabilidades subjetivas 

Se basan en las creencias de las personas que disenan el experimento 
Es util cuando no hay antecedentes para una probabilidad objetiva. 

,i,Cual es la probabilidad de que el colisionador de particulas fracase? dado que no 
existe un antecedente, se recurrira a las suposiciones y al sentido comun. 

Los responsables de tomar decisiones en una empresa usan la subjetividad para los 
casos unicos que se presentan a diario en asuntos de precios, y otros similares. 

Reglas de la Probabilidad 

Los siguientes simbolos son los que se utilizan en el calculo de probabilidades: 
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P(A) = Es la probabilidad de que el evento A suceda. 

Si puede llevarse a cabo solo un evento, la probabilidad sera sencilla. 

Este tipo de probabilidad es conocido como probabilidad marginal o incondicional. 

Si hay un sorteo para ganar un premio y el total de casos es 60, la probabilidad de que 
alguien saque el numero premiado es 1/60 = 0,0167, solo un participante podra ganar. 

Eventos mutuamente excluyentes 

Hay casos en los que pueden realizarse dos eventos: uno o el otro; supongamos que se 
tien 5 candidatos para un cargo publico y que todos tienen los mismos meritos. 

Utilizando el concepto marginal de probabilidad, diremos que la probabilidad de que 
uno de ellos sea elegido sera 1/5. 

Pero si estamos interesados en saber la probabilidad de dos candidatos, tendremos 
que obrar de una manera distinta, en cuanto a la forma, no al contenido. 

Supongamos que deseamos saber las probabilidades de que Juan o Maria ganen el 
concurso de meritos; es decir, la probabilidad de que alguno de los dos gane. 

En este caso tenemos dos eventos que se suman entre si. 

La probabilidad de Juan es de 1/5 y la de Maria tambien es 1/5; entonces la probabili¬ 
dad de que alguno de los dos sea elegido sera 1/5 + 1/5 = 2/5 = 0,40 

En el caso de que uno de los cinco gane, la probabilidad sera: P(A) = 1/5 = 0,20 

La probabilidad de Juan o Maria se representara del siguiente modo: P(A o B) notacion 
que nos indica la probabilidad de que uno de los dos gane el concurso. 

Para mostrar graficamente lo que la suma de probabilidades representa, los teoricos 
recurren a los simbolos de los conjuntos en matematicas. 

Esos simbolos son muy utiles en la tarea de comprender los teoremas 

Tomemos la siguiente tabla, del libro de Levin y Rubin, en la que se consignan datos 
sobre el numero de hijos y sus probabilidades respectivas en una encuesta familiar. 

Tabla 4.1 


Numero de hijos 0 1 2 3 4 5 6 

Probabilidad de familias 

que tienen esa cantidad 0.05 0.10 0.30 0.25 0.15 0.10 0.05 


38 



En la tabla 4.1 tenemos una muestra que nos permitira establecer las probabilidades 
de que una familia tenga un numero determinado de hijos. 

De acuerdo con la tabla 4.1, la probabilidad de que una familia tenga 3 hijos es 0.25. 

La probabilidad de que una familia no tenga hijos es 0.05, mientras que la probabilidad 
de que una familia tenga 2 hijos sera 0.30 y asi sucesivamente. 

Ahora aplicaremos estos conceptos: deseamos saber la probabilidad de que una fami¬ 
lia del pueblo donde se hizo la encuesta tenga 4 o mas hijos. 

Nos damos cuenta de que ya no estamos hablando de un solo evento, sino de varios. 

Probabilidad de varios eventos 

Para plantear el problema recordamos que estamos hablando de varios eventos y que 
la simbologia para representar esa condition es P(A o B) 

En el caso que nos interesa, esa expresion toma la forma numerica siguiente: 

P(4,5,6) = P(4) + P(5) + P(6 o mas) = 0.5 + 0.10 + 0.05 = 0.30 

Interpretamos el resultado: la probabilidad de que una familia tenga 4, 5, 6 o mas hijos 
es la suma de las probabilidades marginales de cada evento, esto es, 0.30 

Ahora ingresamos a otras dimensiones 

Supongamos que deseamos obtener un “diez” o un “trebol” de un mazo de 52 cartas. 

Debemos tener en cuenta que tambien podemos sacar un “diez de trebol”. 

Vemos que sacar un “diez” o un “trebol” no son eventos mutuamente excluyentes, de- 
bido a que hay la probabilidad conjunta de un diez y un trebol al mismo tiempo. 

En este tipo de problemas debemos ajustar la ecuacion para evitar el conteo doble. 

De este modo tendremos: P(diez) + P(trebol) - P(diez de trebol) 

4/52 + 13/52 - 1/52 = 16/52 = 4/13 

Otro ejemplo; los empleados de la empresa han elegido a 5 de ellos para que los re- 
presenten en el consejo de administration; los perfiles de los elegidos quedan regis- 
trados en la tabla 4.2 

Una vez elegidos, los 5 deciden, a su vez, elegir un portavoz: <j,Cual sera la probabili¬ 
dad de que la persona elegida sea mujer o tenga una edad por encima de 35 anos? 

P(mujer o mayor de 35) = P(mujer) + P(mayor a 35) - P(mujer y mayor a 35) 
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La probabilidad P(Mayor a 35 anos) se refiere al total de todos, hombres y mujeres, 
que tienen mas de 35 anos; hay solamente dos casos de los cinco: 45 y 40. 

Tabla 4.2 



Edad 

Hombre 

30 

Hombre 

32 

Mujer 

45 

Mujer 

20 

Hombre 

40 


2/5 + 2/5 - 1/5 = 3/5 = 0.60 

Probabilidad bajo condiciones de independencia estadistica 

En primer lugar, definiremos el concepto de “Independencia” 

Independencia 

Dos eventos seran estadisticamente independientes entre si cuando el evento o resul- 
tado de uno de ellos no tenga influencia en el resultado o evento del otro. 

Existen tres tipos de probabilidad independiente: Marginal, Conjunta, Condicional 

Probabilidades marginales en condiciones de independencia 

Vimos que una probabilidad es marginal o incondicional cuando es la representation 
simple de un evento; vg. el lanzamiento de una moneda normal. 

Ese “experimento” tendra un evento: cara o cruz, con una probabilidad de 0,5 c/u. 

No importa cuantas veces lancemos la moneda, la probabilidad de que saiga cara o 
cruz sera la misma; cada lanzamiento es unico y no tiene influencia sobre el proximo. 

Probabilidades conjuntas bajo condiciones de independencia estadistica 

La probabilidad de dos o mas eventos independientes que se presentan juntos es igual 
al producto de sus probabilidades marginales. 

Representamos ese caso de la siguiente manera: P(AB) = P(A) x P(B) 

P(AB) = probabilidad de que los eventos se presenten juntos o probabilidad de A y B 

P(A) = probabilidad marginal de que se presente el evento A. 

P(B) = probabilidad marginal de que se presente el evento B. 


Ejemplos 

^Si lanzamos una moneda por tres veces sconsecutivas ^Cual sera la probabilidad cruz, 
cara, cruz, en ese orden? 
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El resultado sera: 0.5 x 0.5 x 0.5 = 0.125, debido a que la probabilidad de que saiga ca- 
ra (A) es independiente a la probabilidad de que saiga cruz (B) 

<j,Cual es la probabilidad de obtener cruz, cruz y cara, en ese orden luego de tres lan- 
zamientos consecutivos? La probabilidad sera: 0.5 x 0.5 x 0.5 = 0.125. 

<j,Cual es la probabilidad de obtener al menos dos caras en 3 lanzamientos seguidos? 
Aqui estamos ante el caso mixto de eventos mutuamente excluyentes. 

Esas probabilidades son aditivas, es decir, resultan de la probabilidad de obtener una 
cara mas la probabilidad de obtener otra cara 

Pero, tenemos un evento independiente. 

Para visualizar este proceso, tomemos la tabla 4.2 del texto de Levin y Rubin, en la que 
se descomponen las probabilidades de los eventos del total del experimento. 

Denominaremos cara = H; cruz = T 

En la parte superior del cuadro se registra los tres lanzamientos de la moneda. 


Probabilidad de lanzamientos 
Tabla 4.2 


Un lanzamiento 

Dos lanzamientos 

Tres lanzamientos 

Resultados 

posibles 

Probabilidad 

Resultados 

posibles 

Probabilidad 

Resultados 

posibles 

Probabilidad 

H, 

Tt 

0.5 

JL5 

1.0 

H, H, 

HiTj 

Ti Hj 

Ti Tj 

0.25 

0.25 

0:25 

0.25 

1.00 

Hi HjHj 
HiHjTj 

H, T,H, 
HiTiTj 

0.125 

0.125 

0,125 

0.125 

1.000 





T.HjHj 

Ti H,T, 

T, TjHj 

T, TjTj 

0,125 

0.125 

0.125 

0.125 






1.000 


En el primer lanzamiento los posibles resultados son o una cara (H^ o una cruz (T^ 

La probabilidad para cada uno de estos resultados, tal como vimos es 0.5. 

1 y 2 representan el primer y el segundo lanzamiento, en todos los casos. 

Lanzada la moneda por segunda vez, nos trasladamos a la columna “Dos lanzamientos” 
los resultados posibles son: el primer lanzamiento (H^ el segundo tambien (H 2 ) 
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Este es un ejemplo de lo que hace la computadora con el SPSS. 

Tomamos nota que los eventos del segundo lanzamiento estan ligados a los eventos 
que resultaron en el primero, en cada caso; los mismo con el tercer y el segundo... 

El segundo evento posible en la columna del segundo lanzamiento es Hi, T 2 , esto es: en 
el primer lanzamiento salio una cara (H^ y en el segundo, una cruz (T^. 

El tercer evento muestra que en el primer lanzamiento se Ti y en el segundo, H 2 
El cuarto evento muestra que en el primer lanzamiento T] y en el segundo, cara H 2 

Las probabilidades en cada caso son 0.25, que resultan de 

Cara = probabilidad de 0.5 
Cruz = probabilidad de 0.5 

La probabilidad del primer evento del segundo lanzamiento H 2 es 0.5 x 0.5 = 0.25 
Lo mismo con las demas probabilidades. 

Los datos del tercer lanzamiento se registran de la misma forma; en el primer lanza¬ 
miento se tuvo una cara (H{) en el segundo tambien (H 2 ) y en el tercero, una cruz (T 3 ) 

La probabilidad de este evento sera 0.5 x 0.5 x 0.5 = 0,125 

El mismo razonamiento para los siguientes eventos, hasta que agotamos todas las pro¬ 
babilidades posibles de los tres lanzamientos de la moneda. 

Ahora ya podemos responder a la pregunta que nos hicimos al iniciar este capitulo: 

,i,Cual es la probabilidad de obtener cruz, cruz y cara, en ese orden, luego de tres lan¬ 
zamientos? 

La pregunta ya nos hace saber que se trata de un experimento de tres lanzamientos 
En nuestra tabla vemos que los eventos que la pregunta exige son: Ti, T 2 , H 3 = 0.125 

Estos ejercicios nos muestran lo que hace la computadora, con el SPSS, cuando le pe- 
dimos que calcule las probabilidades de unproblema determinado. 

Probabilidades condicionales bajo independencia estadistica 

Vimos dos clases de probabilidad: la probabilidad marginal (o incondicional) y la pro¬ 
babilidad conjunta; la primera representada por P(A) y la conjunta por P(AB) 

La Probabilidad Condicional que analizaremos ahora se representa por P(B/A) que 
muestra dos eventos: A, y B. 
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De esta manera, la Probabilidad Condicional P(B/A) representa el caso en que el se- 
gundo evento B ocurre luego que el primero, A, ya ha tenido lugar. 

Nos dice cual sera la probabilidad del evento B una vez que el evento A ya ocurrio. 

Antes de continuar, recordemos que para dos eventos independientes, A y B, la ocu- 
rrencia del evento A nada tiene que ver con el la ocurrencia del evento B. 

Tabla 4.3: Probabilidades Condicionales 


Tipo de Probabilidad 

Snmbolo 

Formula bajo 
independenda 
estadistica 

Formula bajo 
dependencia 
estadistica 

Marginal 

P(A) 

P(A) 

P(A/B) x (P(B) 

Conjunta 

P(AB) 

P(A) x P(B) 

P(B/A) x P(A) 

Condicional 

P(B/A) 

P(B) 

P(BA) 

P(B) 


P(A/B) 

P(A) 

P(AB) 


P(B) 

La probabilidad de lograr una cara en un segundo lanzamiento, despues de lanzado el 
primero, seguira siendo 0.5, porque son eventos independientes. A continuacion va 
una ayuda-memoria para eventos estadisticamente independientes 
No olvidemos que la probabilidad marginal, llamada tambien “incondicional” es (PA) 

Probabilidad Condicional Bajo Dependencia Estadistica 

Antes de proponer la definicion formal, vayamos a un ejemplo ilustrativo. 


Tabla 4.3: La distribucion de las diez bolas 


Evento 

Probabilidad del Evento 

1 

0.1 

2 

0.1 (De color y con puntos) 

3 

0,1 

4 

0.1 (De color y con franjas) 

5 

0.1 (Grises y con puntos) 

6 

0.1 

7 

0.1 

8 

0.1 (Grises y con franjas) 

9 

0.1 

10 

0.1 
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Hay una caja que contiene diez bolas de colores, distribuidas del modo siguiente, tal 
como aparece en la Tabla 4.3 

Tres bolas son de color y tienen puntos 
Una es de color y tiene franjas 
Dos son grises y tienen puntos 
Cuatro son grises y tienen franjas 

Siguiendo a Levin y Rubin, hacemos un cuadro para visualizar las condiciones del pro- 
blema; hay 10 bolas, la probabilidad de sacar una de ellas es 1/10 = 0.10. 

Supongamos que alguien saca una bola de color 
iCual es la probabilidad de que tenga puntos? 

Simbolicamente, el problema puede representarse como P(D/C) es decir: 
iCual es la probabilidad de que la bola tenga puntos (D) dado que es de color (C)? 

(Vemos que D representa una bola con puntos, C, de color) 

Queremos saber la probabilidad de que, siendo la bola de color, que tambien tenga 
puntos; para ello, ignoramos las bolas grises, pues no cumplen la condicion dada. 

Solo tomaremos en cuenta las que restan. 

Hay cuatro bolas de color, tres de las cuales tienen puntos. 

Las 4 bolas de color son nuestro “Universo” 

Las tres bolas con puntos constituyen el evento 

Por lo tanto, la probabilidad de una bola a color con puntos es P(D/C) = Z A - 0.75 
Por otro lado, si nos fijamos en la tabla 4.4 hay una sola bola de color y con franjas. 

Por lo tanto, la probabilidad de color con franjas es = V* =0.25 

Ambas probabilidades suman 1. 

En el proximo capitulo veremos la formula general de la probabilidad condicional. 

Algunos ejemplos adicionales 

,i,Cual es la probabilidad de que la bola tenga puntos, dado que es de color? 

Esta pregunta equivale: £Cual es la probabilidad de que la bola sea de color y tenga 
puntos (son 3 casos de un total de 10) entre la probabilidad de que sea de color. 

Probabilidad de que la bola sea de color y tenga puntos = 3/10 = 0.3 
Probabilidad de que la bola sea de color = 4/10 = 0.4 
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La probabilidad de que la bola tenga puntos, dado que es de color, es = 0.3/0.4 
Continuamos los datos de la tabla 4.4 

iCual es la probabilidad de que la bola tenga puntos, dado que es gris? 

Repasando el contenido de la tabla, vemos que: 

La probabilidad de bolas grises con puntos = 2/10 = 1/5 = 0.20 
La probabilidad de que sea gris es 6/10 = 3/5 = 0.60 

La probabilidad de que la bola tenga puntos dado que es gris es = 0.20/0.60 = 0.33 

Probabilidades marginales bajo dependencia estadistica 

Estas probabilidades se calculan sumando las probabilidades de todos los eventos del 
experimento; v.g: calcular la probabilidad marginal del evento bola de color. 

Sumamos la probabilidad de los eventos en los que aparecen bolas de color. 

Volviendo a nuestra tabla, vemos que las bolas de color aparecen “bolas de color con 
puntos” y “bolas de color con franjas”; sumamos las dos probabilidades 

3/10+ 1/10 = 4/10 = 0.4 

La probabilidad de una bola gris resultara de la suma de “bolas grises con puntos” y 
“bolas grises con franjas” es: 


2/10 + 4/10 = 6/10 = 0.6 


Distribution de probabilidades 

Antes de ir al SPSS haremos una grafica manual sobre los datos de la tabla 4.5 


Construiremos la tabla que sugiere Levin y Rubin para registrar los posibles eventos 
que resultarian del lanzamiento de una moneda dos veces consecutivas. 


“H” significa “cara” y “T” significa 


“cruz” y las probabilidades son teoricas, puesto que 


en la realidad puede que en dos lanzamientos los resultados sean diferentes 


Tabla 4.4 


Numero de cruces Lanzamiento 

Probabilidad del 
resultado P(T) 

(H, H) 

0.25 

(T, H) 

0.25 

(H, T) 

0.25 

(T,T) 

0.25 
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Pero, si lanzamos una moneda no alterada muchas veces, los resultados obtenidos se 
iran acercando cada vez mas a las probabilidades teoricas. 

Deduciremos del anterior cuadro otro que registre la distribucion de la probabilidad 
del numero posible de cruces que se obtiene al lanzar dos veces una moneda. 

Representaremos graficamente los resultados de la tabla 4.4, en la grafica 4.1; estamos 
interesados en mostrar la distribucion de los resultados referidos a las cruces. 

Con ese objetivo, colocamos en el eje de las abscisas de un cuadrante el numero teori- 
co de cruces que observariamos en dos lanzamientos de la moneda. 

En las ordenadas registramos la probabilidad de cada observation, de acuerdo con los 
datos de la tabla 4.6 recordemos que estas probabilidades, son teoricas. 

En la grafica 4.1 reflejamos los datos que nos da la tabla 4.6; ambas, la tabla y la grafica 
son dos formas de mostrar una distribucion de probabilidades. No olvidemos que la 
probabilidad de que saiga una cruz es (T, H) + (H, T) = 0.50 

Grafica 4.1 


Probabilidad 

0.5 

0.25 


0 1 2 Numero de Cruces 


Variable Aleatoria 

Es la variable que toma diferentes valores como resultado de un experimento aleatorio; 
puede ser discreta o continua, de acuerdo con el numero de valores que toma. 

Este ejercicio es util para tener una imagen de lo que hace el SPSS en la computadora. 
Definamos algunos conceptos, antes de resolverlo. 

En la Tabla 4.6 registramos los datos de los pacientes atendidos diariamente, durante 
cien dias en una clinica; vamos a convertir esos datos en una tabla de probabilidades 

Si toma solo un numero limitado de valores, sera una Variable Aleatoria Discreta 
Si toma cualquier valor dentro de un intervalo, sera una Variable Aleatoria Continua. 
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En la tabla 4.6 anotamos el numero de pacientes mujeres atendidas diariamente en una 
clinica en los ultimos cien dias; esto es, una distribucion de frecuencias. 


Ahora convertimos los datos de las frecuencias en probabilidades 
Esos valores son registrados en la Tabla 4. 7. 


Tabla 4.5 

Frecuencia de pacientes aten- 
didos en un hospital (Dias) 


Tabla 4.6 

Distribucion de probabilidades 
del numero pacientes atendidos 


Numero de 
Pacientes atendidos 

Numero de dias 
que se Atendio 

100 

1 

101 

2 

102 

3 

103 

5 

104 

6 

105 

7 

106 

9 

107 

10 

108 

12 

109 

11 

110 

9 

111 

8 

112 

6 

113 

5 

114 

4 

115 

2 

100 


Pacientes 

atendidos 

Probabilidad de que 
tome ese valor 

100 

0.01 

101 

0.02 

102 

0.03 

103 

0.05 

104 

0.06 

105 

0.07 

106 

0.09 

107 

0.10 

108 

0.12 

109 

0.11 

110 

0.09 

111 

0.08 

112 

0.06 

113 

0.05 

114 

0.04 

115 

0.02 

1.00 


En la columna izquierda registramos el numero de pacientes que son atendidos diaria¬ 
mente en la clinica; en la derecha, se anotan las probabilidades para cada caso. 


Grafica 4.2 

Distribucion de Frecuencias de probabilidades 
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Para deducir las probabilidades, se ha dividido el numero de dias para cada numero 
de pacientes de la tabla 4.7 entre cien, que es el numero total de dias registrados. 

La suma de las frecuencias del numero de dias anotados en la tabla 4.6 suma 100. 

Los datos convertidos en probabilidades en la tabla 4.7, suman en total 1. 

La suma de todas las probabilidades siempre es 1, en cualquier caso. 

Con los datos de la tabla 4.7 disenamos una grafica de distribution de probabilidad. 

El grafico 4.2 es para una distribucion de probabilidades para variables discretas. 

En esa grafica registramos en el eje de las abscisas el numero diario de pacientes 
atendidas y en el eje de las ordenadas sus respectivas probabilidades. 

No dejamos de notar que la longitud mas larga corresponde a la probabilidad mayor 
de la distribucion; tambien notamos la simetria de las longitudes a ambos lados. 

Sobre esa simetria es que Gauss llego a establecer la Distribucion Normal para valores 
continuos, que es la que mas a menudo usaremos en el SPSS, una definida. 

Hacia la Curva Normal 

La Curva Normal, lo dijimos ya, refleja la distribucion normal de los datos continuos y 
es la que los estadisticos tratan de encontrar para realizar sus analisis. 

Cuando los datos originales no muestran una distribucion normal, los estadisticos trans- 
forman los valores de la muestra por otros. 

La distribucion normal fue presentada por primera vez por Abraham de Moivre en un 
articulo escrito en 1773 

El nombre de “Distribucion Normal” fue dado por Charles S. Peirce, Francis Galton y 
Wilhelm Lexis en 1875 

Gauss demostro rigurosamente la distribucion normal de los errores y su nombre ha 
sido asociado a esta distribucion, con el nombre de “La Campana de Gauss” 

La Curva Normal, o “La Campana de Gauss”, refleja la distribucion normal de los datos 
y es la que los estadisticos tratan de encontrar para realizar sus analisis. 

Cuando los datos originales no tienen una distribucion normal, los estadisticos trans- 
forman los valores por otros; vg, en los logaritmos de las variables originales 
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Valor Esperado de una variable Aleatoria Discreta 

Se calcula multiplicando cada valor que la variable pueda tomar, por la probabilidad 
de que ese valor se presente; al final, sumamos total de estos resultados parciales. 

Construiremos un cuadro del Valor Esperado de la variable discreta “Numero de Pa- 
cientes”; para ello, tomamos los valores de la tabla 4.7 y estructuramos la tabla 4.8. 

El Valor Esperado de la Variable aleatoria “numero de pacientes atendidos diariamen- 
te durante una muestra de cien dlas” es 108.20. 


Este resultado quiere decir que la clinica, en circunstancias normales, esperara aten- 
der un promedio de 108.20 pacientes por dia. 

Tabla 4.7 


Numero 

Probabilidad de que la variable 

Valor Esperado 

Atendido 

aleatoria tome ese valor 


(1) 

(2) 

(1)x(2) 

100 

0.01 

1.00 

101 

0.02 

2.02 

102 

0.03 

3.06 

103 

0.05 

5.15 

104 

0.06 

6.24 

105 

0.07 

7.35 

106 

0.09 

9.54 

107 

0.10 

10.70 

108 

0.12 

12.96 

109 

0.11 

11.99 

110 

0.09 

9.90 

111 

0.08 

8.88 

112 

0.06 

6.72 

113 

0.05 

5.65 

114 

0.04 

4.56 

115 

0.02 

2.30 



108.20 


Otro ejemplo 

En la tabla 4.8 anotamos la probabilidad para cada venta diaria de fruta. 


Tabla 4.8: Ventas durante 100 dias 


Ventas diarias 

Numeros de dias de venta 

Probabilidad de venta 



de cada cantidad 

10 

15 

0.15 

11 

20 

0.20 

12 

40 

0.40 

13 

25 

0.25 


100 

1.00 
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La probabilidad de cada venta diaria se obtiene dividiendo el numero de dias que se 
vendio esa cantidad entre 100, que es el total de dias que se observo las ventas. 

Definition de las clases de perdidas 

Generalmente, las empresas que venden fruta sufren dos clases de perdidas: 

Perdidas de obsolescencia 

Por tener demasiada fruta en un dia y botarla al dia siguiente. 

Perdidas de oportunidad 

Por no tener la suficiente fruta para atender a los clientes; estas perdidas se evitan 
cuando se tiene la cantidad precisa para atender la demanda. 

La tabla 4.10 muestra las perdidas condicionales de nuestro frutero, tanto las perdidas 
por la fruta no vendida en el dia, como las perdidas de oportunidad. 


Se supone que el frutero ofrece 10 cajas cada dia. 


Cada caja de fruta le cuesta al frutero $ 20; el frutero vende cada caja a $ 50. 
Cuando no hay perdidas, el cuadro las registra con un 0. 


Esos datos son anotados en la tabla 4.10 

Tabla 4.10 


Posibles demanda 

Perdida Condicional 

Probabilidad de demanda 

Perdida Esperada 

10 

0 

0.15 

0.00 

11 

30 

0.20 

6.00 

12 

60 

0.40 

24.00 

13 

90 

0.25 

22.50 



1.00 

52.50 


Todos los valores distintos de 0 representan las perdidas de oportunidad por los pedi- 
dos no cumplidos; si en existencia hay 10 cajas y solicitan 11, perdera $30. 

La perdida de $30 es porque se dejo de ganar $50, a los que se resta $20 que le costo 
Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro. 

Si la demanda es de 13 cajas, pero solo tiene 10, la perdida por oportunidad sera 90. 

La perdida esperada resulta de multiplicar la “perdida condicional”, por la “Probabili¬ 
dad de la demanda” para ese dia; en la primera fila vemos que no hubo perdida 
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iQue pasa si el frutero tiene una disponibilidad de 10 cajones pero la demanda es de 
13? La perdida condicional sera de $ 90 


Si multiplicamos esos $ 90 por la probabilidad de que la demanda sea de 13 cajones, se 
obtendra $ 22.50 de perdida esperada; esto es: 90 x 0.25 = 22.50. 



DISTRIBUTION DE 
PROBABILIDADES 


La Distribucion Normal 

La Distribucion Normal es la mas importante de todas y la mas usada en ciencias socia- 
les; es una distribucion continua, no discreta. 


Fu disenada por Karl Gauss en el siglo XIX. 

Por eso se llama tambien distribucion o Campana de Gauss. 

La Distribucion Normal tiene caracteristicas que son muy utiles cuando es preciso de- 
cidir tomando como base las muestras que se levantan de una poblacion dada. 

Grafica 5.1 

Distribucion de Probabilidad Normal 



Representa muy bien las distribuciones de fenomenos reales, incluyendo caracteristi¬ 
cas humanas, tales como el peso, la altura, el coeficiente de inteligencia y otras. 
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Con el objeto de mostrar el proceso de como se llega a la Curva de la Distribucion 
Normal, reproduzcamos en la grafica 5.1, la grafica 4.2 del capitulo anterior. 

La Grafica 5.1 es una distribucion normal para valores discretos. 

Hagamos que los intervalos entre los valores de las probabilidades registrados en las 
ordenadas y los intervalos del numero de pacientes, se vuelvan infinitesimales. 

Es decir, que los valores de vuelvan continuos. 

La curva resultante sera la Curva Normal que se muestra en la grafica 5.2 

La superficie de la Curva Normal esta conformada por la adicion de todas las probabi¬ 
lidades de los resultados de un experimento. 

Precisamente, la tarea mas importante de operar con la Curva Normal es encontrar la 
probabilidad de un resultando como efecto de un experimento. 

Grafica 5.2 
Una Curva Normal 



Propiedades 

Lo dijismo ya, por lo general, el estadistico trabaja con muestras 
La Curva normal es muy importante en este aspecto 

La Curva Normal tiene un solo pico; es decir, solo tiene una moda, es unimodal; la Me¬ 
dia la Mediana y la Moda, estan en el mismo punto central, son iguales entre si. 

Adoptemos la simbologia de los parametros de la Curva Normal: 

a representa la desviacion estandar de la curva normal 

X* representara la Media de la muestra; tambien se usa la X con una barra encima. 


Los extremos, izquierdo y derecho, se extienden y nunca tocan la linea base. 
La mayor densidad de frecuencias esta en a 
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En el punto a, la Media, la Mediana y la Moda son iguales. 

Teorica y practicamente, no hay una sola curva normal, sino una familia completa. 

Para definir una curva normal, lo unico que necesitamos es definir dos parametros: 

La media = ^ 

Error estandar = o 

Conociendo los dos parametros, se puede disenar una curva de distribucion normal. 
La grafica 5.2 muestra curvas normales con diferentes medias. 

En la siguiente serie de tres curvas normales, la de la izquierda tiene la desviacion es¬ 
tandar mas pequena; la del medio, un poco mayor y la tercera tiene la mayor 


Grafica 5.3 
Curvas normales 



50 


50 


50 


Sin embargo, todas ellas tienen una Media = Mediana = Moda = 50. 

La Media, la Mediana y la Moda dividen la curva normal en dos partes iguales. 


Grafica 5.4: Area bajo la curva normal 



0,16 


0,16 


Area bajo la Curva Normal 

El area de cualquier curva normal es 1.00, independientemente de su media o desvia¬ 
cion estandar y la superficie es un conjunto completo de probabilidades. 
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Conociendo que La Curva Normal tiene una media y una desviacion estandar, es posi- 
ble derivan las siguientes caracteristicas que las singularizan en cada caso. 

Alrededor del 68% de los valores de una poblacion normalmente distribuida esta den- 
tro de una distancia que equivale a una desviacion estandar de la media. 

En la grafica 5.4 vemos que el 68% de los datos estan en el centro; el resto, 32%, se di- 
viden en las dos alas de la izquierda y la derecha, cada una con el 16%. 

Por ello, la distancia entre las verticales de esa curva es dos o a la izquierda y dos o a la 
derecha de las observaciones cuya distribution es normal. 

En la grafica 5.5, el 95% de las observaciones estan en el area central y el 5% restante 
se reparten en las alas de la izquierda y derecha, cada una con el 2.5%. 

Grafica 5.5 

Area bajo la curva normal 



Esto quiere decir que el 95.5% de los valores de una poblacion normalmente distribui¬ 
da se encuentra dentro de dos errores estandar de la media 

En este momento no tenemos aun una idea clara de lo que esto significa, pero a medida 
que avancemos captaremos la logica de la curva normal y la manera de usarla. 

Con el objeto de familiarizarnos con los conceptos, vamos a proceder con el plantea- 
miento y la solution de algunos ejercicios sobre el uso de la Curva Normal. 

Ejercicio 1 

Supongamos que la Media Aritmetica (la Media) de los ingresos mensuales de los 
alumnos que cursan la materia es de $ 200 y que el error estandard es a = 70. 

Deseamos estimar el monto del ingreso que este a una distancia de una desviacion es¬ 
tandar (70) a la derecha de la media 


Con esos datos podemos disenar la Curva Normal que se muestra en la grafica 5.6. 
Podemos hacerlo, porque ya sabemos que p = 200 y a = 70. 
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Segun las condiciones del problems, queremos identificar el monto de ingresos que 
esta por encima de la media a una distancia de una desviacion estandar. 

Grafica 5.6 



Si la desviacion estandar es a = 70, entonces la observation a la derecha que esta a una 
distancia de una desviacion estandar de la media es 270. 

Ejercicio 2 

Supongamos que tenemos una curva normal cuya media es n = 80 y una desviacion es¬ 
tandar a = 10; nos piden los valores que estan a 3 desviaciones estandar de la media. 

GrMica 5.7 



50 80 110 


La grafica 5.7 es la curva normal que tiene la media = 80 y la desviacion estandar 10. 

El valor de la derecha es 110: que mide la distancia que la separa de la media en 3 des¬ 
viaciones estandar. El valor de la izquierda es 50, pues se distancia 3 desviaciones es¬ 
tandar de la media, a la izquierda estas tres desviaciones se restan de la media 

Tabla de valores de la Curva Normal Representa el area bajo la curva normal entre la 
media y cualquier valor que asuma la variable aleatoria normalmente distribuida. 

En la primera columna, la tabla registra los valores “z” donde “z” es la desviacion es¬ 
tandar de una curva normal; sus valores van desde 0 hasta 3.6 desviaciones estandar. 

Las siguientes columnas representan las probabilidades de las respectivas desviacio¬ 
nes estandar, en cada caso. 
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The following table gives the areas 
under die standard normal curve 
from 0 to z. 



2 

0 

1 

2 

3 

4 

0.0 

.0000 

.0040 

,0080 

,0120 

0360 

0.S 

.0393 

,0438 

,0478 

.051? 

.0551 

02 

.0193 

.0332 

,0S7I 

.0910 

.0948 

03 

.im 

.1217 

,1255 

,1293 

.1331 

04 

.1554 

,1591 

.1628 

,1664 

.1700 

OS 

.1915 

.1950 

.1985 

.2019 

2054 

0.6 

.2258 

.2291 

,2324 

,2357 

.2389 

07 

.2530 

26U 

.2642 

2673 

.2704 

03 

.2881 

.2910 

,2939 

.2967 

.2996 

0$ 

.3159 

.3186” 

.3212 

.3238 

J264 

1.0 

.3413 

.3438 

.3461 

,3485 

3508 

l.t 

.3643 

.3665 

.3686 

.3708 

3729 

1.2 

.3849 

.3869 

.3888 

.3907 

3925 

1.3 

.4032 

,4049 

,4066 

.4082 

,4099 

1.4 

.4192 

,4207 

.4222 

.4236 

.4251 

1.5 

.4332 

.4345 

.4357 

4370 

.43*2 

1.6 

.4452 

.4463 

.4474 

.4484 

.4495 

1.7 

.4554 

.4564 

.4573 

.4582 

,4593 

1.8 

,4641 

.4649 

.4656 

.4664 

.4671 

3.9 

.4713 

.4719 

.4726 

.4732 

.4738 

2.0 

.4772 

.4778 

.4783 

,4788 

,4793 

2.1 

.4821 

.4826 

.4830 

.4834 

,4838 

22 

,4861 

.4864 

.4868 

.4873 

.487$ 

2.3 

.4893 

.4896 

.4898 

.4903 

.4904 

14 

.4918 

.4920 

.4922 

,4925 

,4927 

15 

,4938 

.4940 

4H1 

.4943 

.4945 

2.6 

.4953 

.4955 

4956 

.4957 

.4959 

2.7 

.4965 

.4966 

.4967 

.4968 

.4969 

2.3 

4974 

-4975 

.4976 

.4977 

,4977 

2.9 

.4981 

.4982 

4982 

.4983 

,4984 

3.0 

,4987 

.4987 

.4987 

.4988 

.4988 

3.1 

,4990 

.4991 

.4991 

.4993 

.4992 

3.2 

.4993 

.4993 

.4994 

.4994 

.4994 

3J 

,4995 

.4995 

.4995 

.4996 

.4996 

3,4 

.4997 

,4997 

.4997 

.4997 

,4997 

3 5 

.4998 

.4998 

.4998 

.4998 

,4998 

3.6 

.4998 

.4998 

4999 

.4999 

.4999 


s 

6 

7 

a 

9 

,0199 

0239 

.0279 

.0319 

.0359 

,0596 

0636 

.0675 

.0714 

.0754 

,0987 

.1026 

,1064 

,1103 

,1141 

.1368 

,1406 

,1443 

1480 

,1517 

,1736 

(772 

.1808 

.1844 

.1879 

.2088 

.2323 

.2157 

.2190 

.2224 

.242 2 

.2454 

.2486 

,2513 

.2549 

.2734 

.2764 

.2794 

.2823 

.2852 

.3023 

,3051 

.3078 

.3106 

.3133 

.3289 

,3315 

.3340 

.3365 

.3389 

,3531 

.3554 

.3577 

.3599 

.3621 

,3749 

.3770 

.3790 

,3810 

.3830 

.3944 

.3962 

,39*0 

,399? 

.401S 

.4115 

.1331 

.4147 

,4162 

.4177 

4265 

4279 

,4292 

.4306 

.4319 

.4394 

.4406 

.4418 

.4429 

.4441 

4505 

,4515 

.4525 

.4535 

.4545 

.4599 

,4608 

.4616 

.4625 

.4633 

.4678 

.4686 

.4693 

.4699 

.4706 

4744 

.4750 

.4756 

,4761 

,4767 

.4798 

.4803 

.4808 

.4812 

.4817 

.4842 

.4846 

4850 

.4854 

.485? 

4878 

.4883 

.4884 

,4887 

.4890 

.4906 

.4909 

,4911 

4913 

.4916 

.4929 

.4933 

.4932 

4934 

,4936 

,4946 

,4948 

.4949 

.4951 

.4952 

.4960 

.4961 

4%2 

.4963 

.4964 

.4910 

.4973 

.4972 

.4973 

.4974 

.4978 

.4979 

.4979 

,4980 

.4981 

.4984 

.4985 

.498$ 

.4986 

.4986 

.4989 
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Ejemplo, el valor 0.2, bajo la columna “z” representa la desviacion estandar: a = 0.2 

Si z = 0.2, la segunda columna muestra el area bajo la curva que es 0.0793; es decir la 
probabilidad de que algo ocurra, la desviacion estandar de Z = 0.2 

Las demas columnas muestran los valores decimales de la desviacion. 

Cuando z tiene mas de un decimal, el segundo decimal se representa en la columna en 
la que se encuentra la probabilidad buscada 

Por ejemplo, si la desviacion estandar es igual a 0,25, el area respectiva estara bajo la 
columna “5” y entonces la probabilidad de una desviacion de z = 0.25 sera 0.0987 

No se preocupen, vamos a lograrlo 

No olvidemos que la Curva Normal se divide en dos partes exactamente iguales y que 
el centro esta dado por el valor de la Media Aritmetica 

En el siguiente ejemplo vamos a utilizar el proceso inverso para comprender mejor lo 
que estamos haciendo con la tabla. 

Busquemos un valor cualquiera, digamos 0.3508; ubicado ese valor en la tabla vemos 
que se encuentra bajo la columna “4” y la fila que corresponde a z = 1.0 

En consecuencia, el valor 0.3508 corresponde a: z = 1.4 

En palabras mas claras: la probabilidad 0.3508 represetna 1.4 desviaciones estandar, 
es decir, a = 1.4 de la media aritmetica de una distribucion normal 

En consecuencia, queda establecido que z es el numero de desviaciones estandar que 
hay entre el valor x que buscamos y la media de la distribucion normal. 

Los matematicos han encontrado que el valor z, que es el valor de cada desviacion es¬ 
tandar, se define como: 

z = (x - |_i)/a 

x = valor de la variable aleatoria que buscamos 
H = media de la distribucion de la variable aleatoria 
a = desviacion tipica de la distribucion 

Continuemos con los ejemplos manuales 

Una vez que tengamos las ideas claras, en otro capitulo acudiremos al SPSS. 

Estos ejemplos nos permitiran visualizar el uso de la tabla de areas bajo la curva nor¬ 
mal; recordemos que la curva esta dividida en dos partes iguales. 
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Ejercicio 3 

Supongamos que esta en proceso un curso de Estadistica; al termino del curso recoge- 
mos los datos sobre el tiempo que tomo a los alumnos completarlo 

Ademas sabemos que la distribucion del tiempo que toma a los alumnos aprender el 
curso, es normal, grafica 5.8 

<j,Cual es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 
horas para completarlo, dado que el tiempo promedio de aprendizaje es de 500 horas? 

Tambien se conoce que la desviacion estandar es de 100 horas 

Los terminos del problema quedan registrados en nuestra curva normal, Grafica 5.8 

GrMica 5.8 



Lo primero que anotamos son los estadisticos: 

La media \x = 500 y la desviacion estandar, c = 100 

Se nos pide la probabilidad de que un alumno tome entre 500 y 650 horas para cubrir 
el curso; la probabilidad de ese evento se encuentra entre 500 a 650 horas P(500 a 650) 

Para resolver el problema debemos estandarizar los datos con nuestra formula: 

z = (x - n)/c; z = (650 - 500)/100; 1.5 

Hemos convertido los datos en desviaciones estandar; es decir en, z = 1.5. 

Esto es, la cantidad de horas cuya probabilidad nos piden = 650 esta ubicada a una dis- 
tancia de z = 1.5 desviaciones estandar de la media 

Recurrimos a la Tabla de Distribucion Normal, la que ya usamos anteriormente, y bus- 
camos en la columna de las z = 1.5 

Como no hay mas decimales, encontramos el valor que buscamos en la columna inme- 
diata a su derecha (0.00) que es igual a 0.4332 
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Asi, decidimos que la probabilidad de que un participante elegido al azar emplee de 500 a 650 
horas para terminar el curso, es 0.4332. 

Con el SPSS 

Vayamos a la Pantalla Variable View del SPSS 
Creamos la variable prob 

Pantalla 5.1 
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En la columna Valores anotamos 

500 =a 
650= b 

La pantalla 5.1 muestra lo que hemos hecho en la Pantalla Variable View 

En la Pantala Data View se ha creado la variable prob, debajo de la cual anotamos 0 

Click —> Menu —> Tran forms —* Computer variable —*■ b en la casilla Target Variable 
La Caja 5.1 muestra el estado del proceso 

Caja 5.1 



En la parte derecha, debajo de la pantalla horizontal hay una pantalla pequena con el 
nombre Function group; elegimos All 
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De inmediato en la pantalla inferior se desplega todas las funciones del SPSS 
De todas ellas elegimos Cdf.Normal 


Caja 5.3 



Click a la flecha de direccion arriba; en la pantalla superior aparecer la siguiente ex- 
presion: CDF.NORMAL(?,?,?) tal como en la Caja 5.3 

La primer interrogante nos pregunta cual es valor que deseamos estimar 
Borramos ese signo y anotamos 650 

La segunda interrogacion nos pregunta cual es la media de la distribucion sobre la que 
estamos trabajando, anotamos 500 

La tercera interrogacion nos pregunta el valor de la Desviacion Estandar, ponemos 100 
La pantall 5.3 muestra el estado del proceso: CDF.NORMAL(650,500,100) 

Anotamos manualmente un signo de resta al final de CDF.NORMAL(650,500,100)- 

Retornamos a la pantalla de funciones y traemos nuevamente Cdf.Normal 
La subimos con la flecha respectiva 

Llenamos con 500, 500, 100 que son los indicadores del problema original 
En la pantalla de arriba leemos ahora: 

CDF.NORMAL(650,500,100)-CDF.NORMAL(500,500,100) -»• OK 

El SPSS nos lleva a la pantalla Variable View 
Alii vemos que se ha creado la variable b 

En la columna de los decimales para la nueva variable b, anotamos 6 
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Vamos a Data View y bajo la columna b encontramos el valor 0.433193 
Que es el resultado que habiamos encontrado manualmente 

Ejercicio 4 

Con los mismos datos del anterior problema ^Cual es la probabilidad de que un parti¬ 
cipate, elegido al azar, se tome mas de 700 horas en completar el programa? 

GrMica 5.9 



Tomamos nota de los estadisticos dados y disenamos la grafica 5.9 
x = mas de 700 horas; n = 500; c = 100 

Disenamos una curva normal; en ella debemos encontrar la Probabilidad (mas de 700) 

Lo que nos piden es encontrar la probabilidad a la derecha de 700 horas. 

Sabemos que [r = 500; x = mas de 700; a = 100 

Convertimos nuestros datos en desviaciones estandar; z = (700 - 500)/100 = 2 
700 horas esta a 2 desviaciones estandar de la media (la Media es 500) 

En la tabla encontramos que para 2 desviaciones estandar, la probabilidad es 0.4772 
Pero el problema no se refiere a 700 horas, sino a mas de 700 horas 

Es decir, no se refiere a la probabilidad que al alumno le tome entre 500 y 700 horas, 
sino a la probabilidad de que el aprendizaje le tome mas de 700 horas. 

La grafica 5.9 nos indica que lo que buscamos es la probabilidad a la derecha de 700 
Sabemos que la mitad derecha, como la izquierda, tiene una probabilidad de 0.5 

Lo sabemos, porque dijimos que la media aritmetica dividia la curva normal en dos 
partes exactamente iguales, es decir, cada una tiene un valor de 0.5. 

Usaremos esa caracteristica. 

Ya encontramos que la probabilidad de 700 horas = 0.4772 

Ahora realizamos la siguiente operacion: valor de la mitad derecha de la curva = 0.5, 
menos la probabilidad de 700 = 0.4772 
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Esto es: 0.5000 - 0.4772 = 0.0228 


Esto es, la probabilidad de que al participante le lleve mas de 700 horas para aprender 
el curso de Estadistica es 0.0228 

Con el SPSS 

Con las mismas variables, vamos a Vista de Datos y en Valores anotamos 

500 = a 
700 = b 

Con el mismo procedimiento que los anteriores vamos a Transformar, registramos b en 
Variable de destino y en la pantalla grande anotamos: 1-CDF.NORMAL(700,500,100) 

En la pantalla Variable View, se ha creado la variable B, con dos decimales. 

Lo aumentamos a 6 

El Resultado aparece en la Pantalla Data View: 0.22750, que es el mismo que encontra- 
mos manualmente, haciendo uso de la tabla normal 

Ejercicio 5 

Con los mismos datos del problema original, se desea saber la probabilidad que a un 
participante le tome entre 550 y 650 horas aprender el curso total, grafica 5.11. 

Nos damos cuenta de que es preciso calcular el valor de dos x: o sea xjyx 2 
Los datos son [i = 500; Xi = 550; x 2 = 650; c = 100 

Primero calculamos el valor de cada x. 

De inmediato notamos que el valor de 550 esta a la derecha de la media = 500 
Empezamos calculando el numero de desviaciones estandar entre 550 y 500 

z = (x - n)/c = (550 - 500)/100 = 0.5 

Buscamos en la tabla el valor de 0.5 en la columna de las desviaciones estandar (z) 

Ese valor es 0.1915 

Ahora hacemos lo mismo con el calculo tomando como x = 650. 

z— (650-500)/100= 1.5 

El valor para 1.5 desviaciones estandar en la tabla es 0.4332. 

El problema consiste en hallar la probabilidad entre 550 y 650 horas 

Esto representa hallar el area entre 550 y 650, tal como se ve en la siguiente curva, re- 
cordando que la media es 500. 
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La grafica 5.10 muestra la estructura del problema. 

Para encontrar el valor que nos pide el problema, que esta entre 550 y 650 horas, to- 
mamos el area entre 650 y 500 y le restamos el area entre 550 y 500. 

Grafica 5.10 



Es decir, tomamos la distancia total entre 500, la media, y 650 el valor mayor 
Esa distancia esta representada por la suma de las areas A + B. 

Luego estimamos la distancia entre 550 y 500, que es el area A. 

En la tabla de las areas de la Curva Normal encontramos los siguientes valores: 

Area A + B = 0.4332 
Area A = 0.1915 

Area B = 04332-0.1915 = 0.2417 

La probabilidad de que un participante necesite un tiempo entre 550 y 650 horas para 
veneer el curso completo de Estadistica, es: 0.4332 - 01915 = 0.2417 

Ese valor es el que corresponde al total del area B 

Esto es: La probabilidad de que a un participante le tome entre 550 y 650 horas apren- 
der el curso total es 0.2417 

Con el SPSS 

Vamos a Vista de Variables, creamos la variable esta, con 6 decimates; en la casilla de 
valores asignamos; en la pantalla de datos aparecera la nueva variable, debajo de la 
cual anotamos el valor 0 

a = 550 
b = 650 

Despues de dar los valores respectivos en la columna Valores, vamos a —► Transformar 
Anotamos b en Variable de Destino 
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En la pantalla de la derecha registramos: 

CDF.NORMAL(650,500,100)-CDF.NORMAL(550,500,100) -»• O.I< 

Aparecera, como en los demas casos una pregunta Change existing variable? —► OK 

Eso quiere decir que el valor anterior, correspondiente al anterior ejercicio en la pan¬ 
talla Data View, sera cambiado por el nuevo valor estimado 

El resultado con 6 decimales sera: 0.241730 

Que es el mismo que hallamos por el procedimiento manual 

Poco a poco, le vamos tomando el pulso al asunto de encontrar las probabilidades. 

Por eso seguimos con algunos ejercicios mas. 

Ejercicio 6 

iCual es la probabilidad de que un participante escogido al azar se tome entre 420 y 
570 horas para aprobar el curso? 

Disenamos nuestra curva normal con las condiciones requeridas, grafica 5.12. 

Grafica 5.11 



El problema nos pide la suma de las probabilidades que se encuentran entre 420 y 500 
mas la probabilidad que hay entre 570 y 500. 

Necesitamos areas en las dos mitades de la curva. 

Es decir, sumar las areas A + B 

Empezaremos calculando los valores de sus respectivas desviaciones estandar = z. 

Zj = (420-500)/100 = - 0.80; z 2 = (570 - 500)/100 = 0.70 
Las desviaciones estandar son -0.80 y 0.70 respectivamente. 


No tomamos en cuenta el signo negativo y mas bien buscamos las probabilidades res¬ 
pectivas a cada z en la tabla. 
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Las probabilidades son, respectivamente 0.2881 y 0.2580 
Sumamos estas probabilidades: 0.2881 + 0.2580 = 0.5461. 

La probabilidad de que un participante escogido al azar requiera entre 420 y 570 horas 
para aprender el curso de estadistica es 0.5461. 

Con el SPSS 

En Vista de Variables, creamos la variable dif con 6 decimales 
Valores: a = 420 y b = 570 

Crear las dos variables y en la pantalla Vista de datos poner b debajo de esta 

En Transformar, click b en Variable de Destino y en la pantalla de la derecha 
CDF.NORMAL(570,500,100)-CDF.NORMAL(420,500,100) 

En la pantalla Variable view la variable b tiene solo dos decimales 
Aumentamos su numero a 6 

Resultado = .546181 

Ejercicio 7 

,i,Cual es la probabilidad de que a un participante le toma mas de 500 horas? 

Sabemos que la media es 500 horas, en consecuencia, el problema se reduce a encon- 
trar el area de la mitad derecha de la curva normal, esto es, 0.5000 

Esa es tambien la probabilidad de que el participante le tome mas de 500 horas. 

Lo que hicimos en los anteriores capitulos fue formarnos una idea de como se distribu- 
yen las probabilidades de ocurrencia cuando las distribuciones son discretas. 


6 

OTRAS BISTRIBUCIONE 


La Curva Normal es una distribucion de variables continuas, es decir, para variables 
cuyos valores varian infinitesimalmente. 

Hay otros modelos teoricos de distribucion de probabilidades que los estadisticos usan 
con gran frecuencia y que no son continuas; esos modelos se encuentran en el SPSS. 
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Para usarlos con propiedad, debemos captar muy bien el concepto de cada una. 

La Distribucion Binomial 

Es una distribucion de variables discretas; v.g, el lanzamiento de una moneda o una 
distribucion en la que haya dos variables: cierto-no cierto; si-no; exito o fracaso 

Cada lanzamiento de la moneda tiene solo dos resultados: cara o cruz; si o no, cada 
evento tiene un probabilidad de ocurrencia, tal como las que vimos hasta ahora. 

Esas probabilidades permanecen fijas en el tiempo 

Por anadidura, diremos que los intentos son estadisticamente independientes entre si. 

Las propiedades de una distribucion binomial 

La Distribucion Binomial se caracteriza principalmente, porque resuelve problemas 
que incluyen respuestas como “si o no”; “cara o cruz” y otros parecidos. 

Para ello toma en cuenta las probabilidades de exito o de fracaso, las que fueron esti- 
madas por los matematicos que consolidaron la estadistica. 

Los teoricos son los que se encargan de demostrar cada formula utilizada 

Por otro lado, toman en cuenta el numero de exitos deseados y el numero de intentos 
Asi, es que los problemas se plantean generalmente del siguiente modo: 

p = probabilidad de tener exito; 0.5 
q = 1 - p, es la probabilidad de fracaso; 0.5 

r = numero de exitos deseados. 
n = numero de intentos hechos. 

El tipo de problema que debemos resolver es el que nos indica en que ocasiones recu- 
rriremos a la distribucion binomial o a otra cualquiera 

La Distribucion Binomial y el SPSS 

Luego de haber captado el concepto respectivo, usemos el SPSS para resolver proble¬ 
mas relacionados con varios tipos de distribucion de probabilidades. 

Ejercicio 6.1 

En una escuela la probabilidad de que un estudiante falte es 0.4 
Tomamos una muestra de 5 alumnos 

iCuales seran las probabilidades de que, 1,2, estudiantes falten? 

Caso 1: un alumno 

Resolveremos el problema caso por caso 

Calcularemos la probabilidad de que un estudiante, exactamente, llegue tarde 
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Usaremos la opcion PDF.BINOM 


Caja 6.1 



En la pantalla Variable view creamos la variable falta 
En la columna de Valores: damos el valor de 1= a 

Transform —*■ Compute variables —» a en target value 

En la pantalla de Function group anotamos All 

En el menu desplegado con las funciones del SPSS escogemos Pdf.Binom 

Click en la flecha de direccion hacia arriba 

En la pantalla superior aparecera PDF.BINOM(?,?,?) 

Rellenamos los signos de interrogation con: PDF.BINOM(1,5,0.4) —► OK 
Cada valor significa: 

1 = un estudiante 

5 = numero de estudiantes tornados en cuenta para el experimeno 
0.4 = probabilidad, ya conocida, de que un alumno falte 

En la pantalla Variable View aparece la variable a con dos decimales 
Aumentamos su numero a 6 

En pantalla de Vista de Datos, bajo la columna a, aparece el numero 0.259200 
Por lo tanto, la probabilidad de que, exactamente, un estudiante falte es de 0.259200 

Solution para 2 

b = 2 (La probabilidad de que falte exactamente 2 estudiantes) 

Procedemos de la misma manera que en el anterior ejercicio 
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Pero esta vez, no calculamos la probabilidad de que un alumno falte, sino que calcula- 
mos la probabilidad de que falten 2 alumos 

En la pantalla de la derecha anotaremos PDF.BINOM(2,5,0.4) —► OK 

En la Pantalla de Vista de datos tendremos la probabilidad calculada: 0.345600 

Esto es, con los datos que se nos proporciono, poemos establecer que la probabilidad 
de que 2 alumnos, exactamente, falten es 0.345600 

Otras Probabilidades 

Supongamos que nos piden estimar la probabilidad de que a lo sumo 2 alumnos falten 

Observamos que en el anterior ejercicio se nos pedia que estimaramos la probabilidad 
de que 2 alumnos, exactamente, faltaran 

Ahora se nos pide la estimation que, a lo sumo, 2 alumnos falten 
El problema difiere del anterior 

Para esto usamos la funcion Cdf.Binom 

Creamos la variable sumo y en la casilla “Valores” registramos: 2 = a 
Anotamos a en la casilla Target Variable 

En el menu de funciones, pulsamos Cdf.Binom = CDF.BINOM(2,5,0.4) —> OK 

Enla Pantalla de Vista de datos tendremos la probabilidad calculada: 0.68 para dos de- 
cimales; aumentamos el numero de decimales de a hasta 6, el resultado sera: 0.682560 

La probabilidad de que, a lo sumo, 2 alumnos falten es 0.682560 

Ejercicio 6.2 

Se nos pide estimar la probabilidad de que en tres lanzamientos de una moneda apa- 
rezcan dos caras 

Solution 

En la pantalla Variable View creamos la variable event, tal como ya sabemos hacerlo 

Dado que en este caso, tambien nos piden un valor exacto, 2 caras, usaremos la version 
Pdf.Binom, conociendo que la probabilidad de que saiga una cara es 0.5 

En la pantalla de variables creamos la variable cara y en la columna “valores” 0.5 = a 

Transform —> a en taget Variable —► PDF.BINOM(2,3,0.5) 

Que corresponden a 2 caras, 3 lanzamientos y la probabilidad de que saiga cara 
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El resultado es 0,375000, es decir, la probabilidad de que luego de tres lanzamientos 
de una moneda, tengamos dos caras en cualquier orden es 0.375000 

Ejercicio 6.3 

Se quiere calcular la probabilidad de hallar tres tubos llenos de una sustancia quimica 
de una muestra de 6 sabiendo que la probabilidad de lograr un tubo lleno es 0.8 

Solucion 

Vamos a la pantalla Variable View y creamos la variable tub sin decimales 
En la columna de valores hacemos a = 3 

3 = tubos cuya probabilidad de encontrar llenos se desea estimar 
6 = el numero total de tubos que se tomara en cuenta 
0.8 = la probabilidad de encontrar 1 tubo lleno 

Transform —► target value; a; —► PDF.BINOM(3,6,0.8) 

En la pantalla Variable View aparece a con 2 decimales, los aumentamos a 6 

En la pantalla Data View, en la columna se registra el valor: 0.081920 

Esto es: la probabilidad de que tomando una muestra de 6 tubos de ensayo encontre- 
mos 3 llenos, sabiendo que la probabilidad de encontrar 1 lleno es 0.8 sera: 0.081920 

La Distribucion de Poisson 

Es otra de las distribuciones mas usadas para resolver problemas con variables discre- 
tas; esta distribucion debe su nombre a su creador, Denis Poisson (1781-1840) 

Hay varios tipos de problemas que requieren de esta distribucion. 

Por ejemplo, la distribucion de llamadas telefonicas que llegan a una central y las 11a- 
madas que los pacientes internados en las clinicas hacen a las enfermeras. 

Tambien debemos incluir el numero de coches motorizados que llegan a un control de 
rodaje y otras; todos se refieren a procesos discretos con una o mas ocurrencias. 

Asi, el numero cotidiano de llamadas a las enfermeras puede representarse por 1, 2, 3, 
4,... lo mismo el de llegadas de vehiculos apagar rodaje. 

La diferencia entre distribucion de Poisson y la Binomial estriba en lo siguiente: 

La Distribucion Binomial toma en cuenta dos eventos: un si y un no 
La Distribucion de Poisson incluye mas opciones. 

Calculo con el SPSS 

El proceso es igual al que empleamos en el calculo de la distribucion binomial. 
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Ejercicio 6.4 

Se desea averiguar cual es la probabilidad de que suceda 0 accidentes, 1 accidente y 2 
accidentes en un dia, en una calle donde el promedio es de 5 accidentes por dia. 

Planteo del problema 

En la pantalla de Vista de variables creamos una variable, even. 

En Valores asignamos: 0 = a 

En la pantalla de datos aparece la variable even 
Colocamos un 0 en la primera casilla 

Menu Principal —> Transformer —* Calcular variable: alii ingresamos la variable a con el 
objeto de estimar la probabilidad de que ese dia hay a cero numero de accidentes. 

En la parte inferior derecha hay un cuadro de funciones con un menu; pulsamos Todo 
Del menu de funciones buscamos la funcion Pdf-Poisson. 

Las caracteristicas de la funcion Poisson apareceran debajo del teclado; la subimos y 
en la pantalla aparece Pdf.Poison (?,?) 

Reemplazamos el primer interrogante con 0 y el segundo con 5 —> OK 
En la pantalla Vista de datos aparece el numero 0,006738 

La probabilidad de que se registren cero accidentes en una calle en la que el promedio 
de accidentes diario es 5, es 0.006738. 

Si deseamos saber la probabilidad de que ocurra exactamente 1 accidente ese dia y en 
esa misma calle, repetimos el proceso, dando el valor de 1 = b 

Traemos y llenamos los interrogantes PDF:POISSON(l,5) 

El resultado, en la pantalla de datos, sera 

Esa es la probabilidad de que ocurra exactamente un accidente en ese dia determina- 
do en la calle cuyo promedio diario es de 5 accidentes. 

Repetimos el proceso para los demas casos. 
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7 

MUESTREO Y BISTRIBUCIONE 
BE MBESTRAS 


Introduction 

Por lo general, no se tiene datos sobre las poblaciones totales a las que se desea anali- 
zar, por eso las muestras son tan importantes en la disciplina estadistica. 

Las muestras se realizan por medio de encuestas adecuadamente disenadas y, aunque 
constiuyen solo una porcion del total de la Poblacion, reflejan sus caracteristicas. 

Poblacion 

Es el conjunto total de elementos que conforman el universo sobre el cual realizaremos 
los analisis, generalmente sobre la base de muestras 

Muestra 

Es una porcion escogida de la poblacion y, cuando esta adecuadamente disenada, re- 
fleja las caracteristicas de las mismas. 

Tipos de muestreo: 

Las muestras pueden ser aleatorias o no aleatorias; en las primeras todos los elementos 
de la poblacion tienen la misma probabilidad de ser escogidos para la muestra. 

Muestreo aleatorio 

En estos muestreos conocemos las probabilidades de que un elemento de la poblacion 
sea escogido en la muestra; se divide en las siguientes clasificaciones. 

Muestreo Aleatorio Simple 

Para comprender este concepto, diremos que se puede derivar, no una, sino muchas 
muestras de una sola poblacion, una tras otra. 

El muestreo aleatorio es el que establece que cada posible muestra tenga la misma 
probabilidad de ser seleccionada que cualquiera de las otras de la misma poblacion. 

Tambien exige que cada elemento de la Poblacion tenga la misma probabilidad que las 
demas de ser incluida en cualquiera de las muestras. 


Muestreo estratificado 

Se divide la poblacion en grupos homogeneos, se pondera cada muestra, de acuerdo 
con el numero de elementos que contiene con relacion al total de las muestras. 
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La estratificacion por barrios o por manzanos de barrio es una manera muy utilizada. 

Fases del diseno de muestra 

Determinar que es lo que se desea medir. 

Definir el tamaho de la muestra 

Realizar un pequeno plan piloto con las hojas de encuestas en la que se anotan las va¬ 
riables a ser analizadas. 

Introduction a las distribuciones de muestreo 

Se pueden sacar muchas muestras diferentes de una poblacion. 

Supongamos que de una poblacion extraemos varias muestras, una despues de la otra, 
de manera tal que despues de cada muestra los elementos vuelven a la poblacion. 

Lo mismo con las demas; supongamos que se trata de una muestra para estimar la altu- 
ra de los varones tornados al azar, de una poblacion de 100000 personas. 

En este caso, la poblacion puede ser considerada infinita; supongamos tambien que 
sacamos varias muestras del mismo tamano de esa poblacion. 

Al comparar las muestras que se tomo para estimar la altura media y la desviacion es- 
tandar, nos damos cuenta de que esos estadisticos varian de una muestra a otra. 

Si los estadisticos varian de una muestra a otra, nos interesara saber como estan distri- 
buidas las muestras, cuando, teoricamente, tomamos todas las muestras posibles. 

Es decir, si cada muestra que logramos de una poblacion es diferente de las otras, 
tambien logradas de la misma poblacion, cada una tendra una media aritmetica propia 

Lo que ahora deseamos saber es como se distribuyen esas medias aritmeticas 

Vimos como el ingreso de las personas se distribuyen alrededor de la media aritmeti¬ 
ca, asi tambien las medias se distribuyen alrededor de una media aritmetica central. 

Los matematicos que se han encargado de formalizar las formulas y sistematizar los 
analisis han llegado a la siguiente conclusion: 

Una distribucion de probabilidad de todas las medias posibles de las muestras es 
una distribucion de las Medias de la muestra. 

Los valores estadisticos se conocen como distribucion de muestras de la media 

Es muy importante diferenciar estos estadisticos de los anteriores. 

A lo largo de este capitulo, aprenderemos a diferenciar ambos tipos de estadisticos. 
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Description de las distributiones de muestreo 

Ya lo vimos: cualquier distribution de probabilidad y, por lo tanto, cualquier distribu¬ 
tion de muestreo, puede ser descrita por su media y por su desviacion estandar. 

Si sacaramos todas las muestras posibles de una poblacion dada, las medias de cada 
muestra, al ser diferentes unas de las otras, estarian distribuidas de alguna manera. 

Esa distribution de las medias tendria, a su vez, una media y una desviacion estandar 
propios, dado que se trata de una distribution, aunque sean de las medias. 

La Desviacion Estandar que usabamos hasta ahora, toma otro nombre cuando se refiere 
a la distribution de las medias del conjunto de muestras: Error Tipico de la Muestra. 

Otros programas utilizan el nombre “Error estandar de la media”, pero el SPSS designa 
a este estadistico como error tipico de la media. 

El Teorema del Limite Central 

La media aritmetica de la distribution de las medias aritmeticas de las muestras sera 
igual a la media aritmetica de la poblacion, sin importar el tamano de las muestras 

Por otra parte, los matematicos han llegado a la siguiente conclusion, la que ahora co- 
nocemos como el Teorema del Limite Central: 

A medida que el tamano de las muestras crece, la distribution de las medias de las 
muestras se acerca a la distribution normal 

Por eso es que la muestra no tiene que ser muy grande con respecto a la poblacion. 

El Teorema del Limite Central nos permite usar los estadisticos de una muestra para 
hacer inferencias sobre los estadisticos de la poblacion. 

Tambien se puede asegurar que en una muestra con mas de 30 elementos, la distribu¬ 
tion de su media empieza a acercarse a la distribution normal. 

Por eso es que la primera de las acciones que realizamos al recibir una muestra en la 
pantalla del SPSS es constatar si su distribution es normal. 

Si no es normal, posiblemente tengamos que transformar la muestra. 

Existen varios procedimientos para ese objetivo. 

Conclusion 

Todo lo que hemos hecho hasta ahora ha sido recordar los principales conceptos que 
usa la estadistica para analizar las muestras que logra de las diferentes poblaciones. 

Excepto en casos, como los censos de poblacion, vivienda, ingresos, todas las estima- 
ciones sobre las estadisticas de una poblacion se realizan utilizando la muestra. 
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Continuaremos nuestro estudio aplicando el SPSS. 

La Division principal de la Estadistica 

Lo dijimos ya, la Estadistica se divide en dos grandes ramas: 

La Estadistica Descriptiva describe las propiedades de las muestras, incluyendo los va- 
lores, las tablas, las distribuciones, las graficas y otros. 

La Inferencia Estadistica infiere las caracteristicas de la poblacion a partir del analisis de 
los resultados que nos brinda la Estadistica Descriptiva. 

La primera parte de este curso trata de la Estadistica Descriptiva y la segunda parte 
estara orientada a la Inferencia Estadistica. 

Tipos de variables 

A modo de recordatorio, repetiremos lo que se establecio en el primer capitulo. 

Hay dos tipos principales de Variables: las categoricas y las de escala. 

Variables categoricas 

Son variables no numericas, pero que pueden volverse numericas en su caso. 

Tambien se las conoce con el nombre de variables cualitativas. 

Las variables categoricas se dividen en nominales y ordinales. 

Variables nominales son aquellas que no necesitan de un orden preestablecido, tal el 
Estado Civil: Soltero, casado... 

Variables Ordinales obedecen a un orden jerarquico de ordenacion. 

Marital status, por ejemplo, es una variable categorica nominal, pues no es cuantitativa, 
sobre todo, no necesita una jerarquia de ordenacion. 

Level of education es una variable ordinal, dado que sigue un orden establecido. 

Ese orden esta dado por la sucesion de los que no han asistido a un sistema formal de 
educacion hasta los que han llegado a un nivel mas alia de un grado universitario. 

Variables de Escala 

Son numericos; tambien se llaman Variables Cuantitativas. 

Frecuencias 

Esta opcion requiere de Statistics Base option. 

El proceso Frecuencias nos ofrece el despliegue de estadisticos y graficas que nos son 
necesarias para describir los tipos de variables que debemos interpretar. 
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Es un buen lugar para que empecemos a familiarizarnos con los datos. 

Las graficas pueden ser expresadas en valores absolutos o en porcentajes. 

Usar la opcion Frecuencias para analizar variables nominales 

Traigamos el archivo contacts.save (Ver Sample Files para mayor informacion) 

El archivo tiene informacion sobre un equipo de vendedores de computadoras para las 
empresas que desarrollan software. 

En cada compania, cada departamento dispone de representantes que tienen contacto 
primario; los contactos estan categorizados con las siguientes denominaciones: 

Development, Computer Services, Finance, Other, Don’t Know 

Se desea comprobar si los departamentos cumplen con los objetivos. 

Usaremos Frecuencies para analizar la distribucion de los departamentos. 

Analize —*■ Descriptive Statistics —► Frequencies —► Departament fcomo la unidad de anali- 
sis) —► Charts —► pie chart —► Continue —> OK 


Tabla 7.1 


Department 


Frecuen- 

cia 

Porcentaje 

Porcentaje 

valido 

Porcentaje 

acumulado 

Validos 

Development 

16 

22,9 

25,8 

25,8 

Computer services 

30 

42,9 

48,4 

74,2 

Finance 

13 

18,6 

21,0 

95,2 

Other 

3 

4,3 

4,8 

100,0 

Total 

62 

88,6 

100,0 


Perdidos 

Don't know 

8 

11,4 



Total 

70 

100,0 




En la pantalla de resultados tenemos una tabla y un grafico de “torta”. 

Copiamos la tabla. 

El total de observaciones registradas es 70, de las cuales 8 son valores perdidos, es 
decir, no incluidos en la muestra, lo que es equivalente al 11.4% del total. 

La columna de frecuencias nos informa que 30 de los contactos personales se realizaron 
con el departamento de servicios de computadora. 


75 
















GrMica 7.1 


Department 



■ Development 

■ Computer services 

□ Finance 

■ Other 

□ Missing 


Esto equivale al 42.9% del total de contactos y al 48.4% de los contactos del numero de 
variables efectivamente tomadas en cuenta. 

La information que leemos en las tablas numericas se refleja en graficos; la “Torta” es 
una ayuda para tener una idea de las frecuencias relativas de cada categoria. 

Con las instrucciones anteriores, lo que hicimos fue concretar una tabla de datos. 

La grafica de “torta” se nos dio cuando hicimos click en Charts —► Pie charts. 

Copiamos el “Pie” para apreciar los valores relativos de una forma mas visual 

En la parte derecha de la grafica 7.1 se registra los sectores que tienen contactos con 
empresas clientes de la firma que ahora estamos analizando. 

Los respectivos porcentajes se muestran en las porciones de color de la torta. 

Grafica de barras 

Para obtener una nueva clase de grafico, vayamos a la caja de Frecuencias, pulsemos 
en Charts —>Bar charts —*■ Continue — * OK 

En el cuadro de frecuencias—» Format —> descending values—*■ continue —> OK 
Para una mejor visualization, las barras se muestran de mayor a menor. 

Ademas del departamento respectivo para cada contacto, tambien vemos el rango de 
las observaciones; para ello vamos otra vez a Frecuencias. 
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Cada una de las barras representa el numero de clientes que tuvieron contacto con la 
empresa a traves de sus departamentos respectivos: finanzas, desarrollo, etc. 

Deseamos ver los rangos de la compania para constatar si cumple con las metas. 


Grafica 7.2 

Department 



Department 


Resumen de rangos 

Analize —» Descriptive Statistics —> Frequencies —> Reset 

En la pantalla de la derecha Introducimos Company Rank , que es variable ordinal 

Craficos —> Charts —> Bar Charts —> Continuar —> Format —> Ascending Values —> 

Continuar —► OK en la caja de dialogo de frecuencias. 

En la pantalla de resultados tenemos la tabla 7.2. 

A1 igual que las anteriores, la copiamos para su respectivo analisis. 

Los resultados nos muestran que las variables ordinales tambien pueden ser analizadas 
de la misma manera y darnos information adecuada. 

Por ejemplo, podemos ver en la tabla que los contactos con los administradores jove- 
nes constituyen el 15.7% del total de los contactos. 

Pero, cuando estudiamos datos de tipo ordinal, el porcentaje acumulativo es mas util. 

La tabla, al igual que las barras, ha sido ordenada por magnitudes descendentes. 

Para esta clase de analisis, la variable a estudiarse tiene que ser cuantitativa. 
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Tabla 7.2 


Company rank 


Frequency 

Percent 

Valid Percent 

Cumulative 

Percent 

Valid 

Employee 

11 

15,7 

18,6 

18,6 

Jr. manager 

11 

15,7 

18,6 

37,3 

Sr. manager 

18 

25,7 

30,5 

67,8 

VP 

13 

18,6 

22,0 

89,8 

Pres/CEO/CFO 

6 

8,6 

10,2 

100,0 

Total 

59 

84,3 

100,0 


Missing 

Don't know 

11 

15,7 



Total 

70 

100,0 




Alii podemos observar que el 67.2% de los contactos tuvieron alcanzaron, desde em¬ 
ployee a Senior manager, pasando por Jr. manager 

La Grafica 7.3 es el Histograma de la distribution de la variable Company Rank. 

En el eje base registra las cinco categorias que se muestran en la tabla 7.2. 

GrMica 7.3 


Company rank 



Company rank 
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La Altura de cada barra del histograma consigna la frecuencia de cada categoria, es 
decir, la misma informacion que tenemos en la columna “Frecuencia” de la tabla 7.2 

Frecuencias 

Para analizar esta opcion usamos la distribution de la variable Amout of Last Sale, que 
se encuentra en el archivo contacts.save, que estamos utilizando 

Analize —► DescriptiveStatfstis —► Frequencies 

En la pantalla de la derecha aun esta la variable Department 

Para llevarla a la pantalla de la izquierda, pulsamos en la flecha de direccion y la traslad- 
mos; alii click —► Amount of Last Sale 

Ahora vamos a llamar a varios estadisticos cuyo significado aun no conocemos 
Sin embargo, los iremos analizando uno por uno, cuando los tengamos en las tablas. 

Una vez en la caja de dialogo de frecuencias: 

—► Statistics —*■ click — > Quartiles — *■ Std. Deviation — > Minimun — > Maximun —► Mean —> Median 
—> Mode —> Skewness —> Kurtosis —*■ Continue -> Charts Histogram —> Continue —>• OK 

Desactivamos la opcion “tablas de frecuencias” —► Aceptamos 


Tabla 7.3 


Statistics 

Amount of last sale 

N 

Valid 

70 

Missing 

0 

Mean 

55,4500 

Median 

24,0000 

Mode 

8,00 a 

Std. Deviation 

103,93940 

Skewness 

5,325 

Std. Error of Skewness 

,287 

Kurtosis 

34,292 

Std. Error of Kurtosis 

,566 

Minimum 

6,00 

Maximum 

776,50 

Percentiles 

25 

12,0000 

50 

24,0000 

75 

52,8750 

The smallest Mode is shown 
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La Tabla 7.3 nos muestra los estadisticos acerca de la distribucion de la variable que 
analizamos, en este caso, de la variable “ventas”; definamos cada uno de ellos. 

El titulo del cuadro, Amount of Sales, se refiere al total de lo que se vendio el ultimo dia; 
N = 70 significa que se tomo en cuenta 70 valores de la muestra. 

No hay valores perdidos (Conocidos como “valores missing”). 

La Media nos da el promedio de las ventas ultimas en todos los departamentos de la 
firma; en este caso, nos dice que el promedio (Mean) fue de $55.45. 

La Mediana (Median), tal como ya la definimos, es de $24; de inmediato notamos la di- 
ferencia que hay con la media, lo que analizaremos en unos momentos 

La Desviacion Estandar (Std. Deviation), que muestra la dispersion media de las ventas, 
es $103.9394 


Asimetria (Skewness o Sesgo) 

Es un estadistico que describe la simetria de la distribucion alrededor de la media. 
Si el sesgo es igual a cero, la distribucion es simetrica (en este caso, es normal) 

Los siguientes graficos ilustran el concepto de Asimetria. 

Si no existe una cola o sesgo, la asimetria tendra un valor de cero. 


Si el sesgo lleva el signo positivo, entonces sabremos que la distribucion tendra una 
cola asimetrica hacia los valores negativos 

Grafica 7.4 


Curva de asimetria 
Negativa 


Curva simetrica Curva de asimetria 

Positiva 





Esto querra decir que los elementos de la muestra en general estaran sesgados hacia 
los valores que se agrupan mas en los niveles bajos. 

Si el sesgo es negativo, la distribucion tendra una cola asimetrica hacia valores positi¬ 
ves; esto es, tiende a reunirse mas a la derecha de la media, en los valores altos. 
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La curva de una distribucion asimetrica con skewness (sesgo) negativa indica que los 
valores estaran mas reunidos en niveles superiores a la media aritmetica. 

A1 centro, la curva muestra la Curva Normal, la asimetria tiene un valor de cero, esto 
nos muestra que la distribucion no esta sesgada ni positiva ni negativamente. 

A la derecha se muestra una curva asimetrica con skewness positiva, lo que nos indica 
que los valores tienden a reunirse en la zona de los valores menores a la media. 

El valor de Asimetria que nos da la tabla 7.3 para nuestro analisis sobre las ventas ulti¬ 
mas, es de 5.325; la Desviacion Estandar (Std. Deviation) de la Asimetria es 0.287. 

Es un valor positivo, por lo tanto las ventas en los departamentos, se reunen en valores 
menores a la media, mostrando un desempeno no eficiente. 

Curtosis 

Es un estadistico que describe el grado de “punta” o “achatamiento” de la distribucion 
de una variable con relacion a la distribucion normal. 

La grafica 7.5 nos muestra el grado de curtosis de varias curvas. 

La curtosis positiva, llamada Leptocurtica, indica una distribucion que perfila un grafico 
“mas en punta”, tal como vemos en la curva izquierda, con relacion a la normal. 

Una curtosis negativa, denominada Platicurtica, indica una distribucion relativamente 
mas achatada, como la que vemos a la derecha de la grafica 7.5 

En una distribucion normal la curtosis es igual a 3. 

Es sobre ese valor que se determina el nivel de Curtosis de una distribucion 
En esta distribucion, lo dijimos, la media, la mediana y la moda son iguales entre si. 

Grafica 7.5 



Leptocurtica 



Mesocurtica 


Platicurtica 


Si el coeficiente es positivo, quiere decir que hay una mayor concentration de los datos 
en torno a la media. 
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Si el coeficiente es negativo, la distribucion Platicurtica muestra que hay una menor 
concentracion de datos en torno a la media; seria mas achatada que la primera. 

El valor de la curtosis en la tabla 7.3 es 34.2920, lo que indica que los valores estan 
concentrados lejos de la media aritmetica. 

El uso del coeficiente de la Curtosis es muy importante para establecer el grado en el 
que la distribucion de los valores se acerca o aleja de la curva normal. 

Percentiles 

Muestran como se agrupan los datos cuando se los ordena en orden ascendente ten- 
diendo a que cada grupo tenga P% de observaciones. 

Por ejemplo, podemos dividir el numero de elementos de una muestra en 99% grupos 
a los que identificamos con los siguientes simbolos: Pi, P 2 ,.. P 99 . 

Cada grupo recibira el nombre de percentil. 

El percentil P 100 ya queda establecido. 

Estableceos que el 1% de los datos tienen un valor menor a P] (No olvidemos que los 
grupos se forman de una serie de datos ordenados en sentido ascendente) 

El 70% de los datos seran menores o iguales a P 70 . 

El 99% de los datos seran menores que P 99 . 

Vamos a poner un ejemplo concreto, en el proximo subtitulo relativo a los Cuartiles. 

Los Cuartiles 

Son los grupos mas utilizados, dividen al total de los elementos en cuatro partes cada 
uno delos cuales tienen aproximadamente el mismo numero de elementos. 

Cada Cuartil queda identificado como: Qi. O2. Y O3 

Qi, es el que tiene el primer 25% de observaciones del total y son menores a Qi 
O 2 ©s el que tiene el 50% de las observaciones, cada uno es menor que O 2 
O3 es el que registra el 75% de los datos menores que O3 

Ejemplo 

Tomemos los siguientes valores ordenados en forma ascendente: 

120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750, 790, 800, 820, 910, 980 
Ahora bien, dividamos ese total de elementos en cuatro grupos, es decir en Cuartiles 
120, 140, 200, 240, 260, 380, 450, 500, 630, 700, 750, 790, 800, 820, 910, 980 
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El primer Cuartil (Qi) es 240; todos los valores a su izquierda seran menores que el. 

El Segundo Cuartil (O 2 ) es 500; todos los valores a su izquierda son menores que el. 

Del mismo modo para los demas cuartiles 

El ultimo Cuartil (O 4 ) es 980, todos los elementos tienen un valor menor que 980 

Observese que la Mediana, tal como la estudiamos en los primeros capitulos, oscila 
entre 500 y 600, = 550, es decir, esta incluida en el Segundo Cuartil 

Es importante saber que el 50% de los datos centrales se encuentra entre Qi y O 3 

Los Deciles 

Dividen la distribucion en 10 partes iguales (9 divisiones) y se representan como D] 

D 9 , correspondientes al 10%,...,90%, al igual que los otros estadisticos descritos. 

El SPSS estima todos estos estadisticos 

Volviendo al analisis de la tabla 7.3, notamos que la media, la mediana y la moda difie- 
ren en sus respectivos valores; la distribucion de la variable no es normal. 

La deduccion se confirma al leer los estadisticos como la Asimetria y la Curtosis 

El Histograma 

Ya tuvimos ocasion de familiarizarnos con el Histograma, que es una visualizacion gra- 
fica de la distribucion de la variable que deseamos analizar. 

Sin embargo, ahora necesitamos un Histograma que tambien incluya la curva normal, 
de esta manera podremos ratificar los datos de Kurtosis y de Sqweness 

Analize —> Descriptive Statistics —» Frequency —> Charts —> Histograms —> show normal 
curve on histogram —> Continue —> OK. 

Observese que en el eje de las abscisas de la Grafica 7.6, se registran los valores de las 
ventas y en el de las ordenadas la frecuencia en que esos valores se repiten. 

El histograma que vemos en el cuadro de resultados, comparado con la curva normal, 
nos muestra una distribucion asimetrica con una cola derecha larga. 

Es decir, un skewness positivo, lo que nos indica que los elementos estan concentra- 
dos, en la zona de valores bajos, tal como nos indicaba la Asimetria. 

Tambien nos confirma una Curtosis elongada hacia arriba, con relation a la curva nor¬ 
mal; la distribucion es Leptocurtica, tal como vimos en la tabla 7.3. 

Los valores que nos da la tabla sobre las medidas de tendencia central, la Curtosis y la 
Asimetria muestran que la distribucion de la variable Sales no es normal. 
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Grafica 7.6 


Monto de ventas 



Media = 55,45 
Desviacidn tipica = 103,939 
N = 70 


El Histograma confirma la misma conclusion que los datos de la tabla; por lo tanto, ya 
estamos seguros de que la distribucion de la variable “sales”, ventas, no es normal. 

Deseamos que la distribucion de la variable se acerque a la curva normal. 

Para ello, recurrimos a la transformacion de las variables de la muestra en otras que 
reflejen mejor las caracteristicas. 

Es decir, trataremos de transformar la variable de manera tal que su distribucion se 
acerque mas a la distribucion normal 

Transformacion de variables 

En el siguiente paso veremos como se hace esa transformacion. 

Primer, traemos a la pantalla de datos el archivo 

La Option Transformation 

Para usar la opcion Transformacion, la variable debe ser de escala, cuantitativa. 

En este caso, parece adecuado transformar los valores en los logaritmos naturales de 
los valores originales; la prueba y error con el SPSS nos ensenara a escoger. 

Vamos a transformar la misma variable, Amount of last sales del archivo que estamos 
usando, esto es, de contacts.save 
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Por algunos segundos, sin hacer click, apuntamos con el cursor la columna sale, ten- 
dremos el nombre de la variable: Amount of last sales 

Para mejorar la distribucion de esta variable es que vamos a convertir sus valores ori- 
ginales en sus respectivos logaritmos 

Para transformar la variable de ventas escojamos del Menu principal la casilla 

Transform —> Compute Variable 
Aparecera un cuadro de dialogo 

En realidad ya estamos familiarizados con esta opcion, pues la usamos en el capitulo 
relativo a la solution de problemas de distribucion de Probabilidades 

En la parte superior izquierda del cuadro hay una casilla con el nombre “Target Varia¬ 
ble”, alii escribamos logsale que es Amount of last sales logaritmizada 

A la derecha hay una pantalla con el titulo de Numeric Expresion 

Ahora bien, debajo de esa pantalla, a la izquierda, hay dos pantallas: la primera dice 
“grupo de funciones”; de las opciones que nos ofrece pulsamos All. 

La pantalla que se encuentra debajo de la anterior tiene como titulo Functions and Spe¬ 
cial Variables en la que aparecen todas las funciones del SPSS por orden alfabetico. 

Buscamos hacia abajo, hasta llegar a Ln; hacemos click y en la pantalla a la izquierda y 
debajo del teclado aparece una leyenda que explica cual es la tarea de la funcion. 

Con la flecha de direccion hacia arriba, introducimos esa funcion en la pantalla “expre¬ 
sion numerica”; alii aparecera la siguiente expresion: LN(?) 

El signo de interrogation pregunta cual es la variable que deseamos logaritmizar 

Del cuadro de la izquierda, donde estan todas las variables elegimos Amount of last sa¬ 
les-, con la flecha de direccion introducimos la variable entre los parentesis; OK. 

Vamos a la Pantalla Variable View; alii se ha creado una nueva variable logsale. 

El numero de decimales es 2, lo aumentamos a 6 

Vamos a la pantalla de Vista de datos y nos encontramos que los valores de la nueva 
variable logsale estan registrados en la ultima columna de la pantalla. 

Observemos tambien que la nueva variable logsale ha quedado registrada en la panta¬ 
lla Variable View, aumentamos los decimales a 6 
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En la columna Etiquetas ponemos Logaritmo de Ventas. 


Ahora comprobaremos si la transformacion de la variable sales ha mejorado con la 
transformacion de sus valores en valores representados por sus logaritmos naturales. 


Menu —> Descriptive —<• Statistics —> Frequencies 


Grafica 7.9 


Media = 3,337327 
Desviacion ti'pica = 1,053607 
N = 70 



1,000000 2,000000 3,000000 4,000000 5,000000 6,000000 7,000000 

logsale 


Desplazamos la variable sales de la pantalla y la reemplazamos por la nueva logsale 
—► pulsamos los estadisticos deseados. 

Charts —^Histograma, la que trasladamos en la pagina anterior como la grafica 7.9. 

Aceptamos y una nueva tabla de datos y un nuevo histograma aparecen en la pantalla 
de resultado; analizamos primero el nuevo Histograma 

Una revista al histograma confirma los datos numericos de la tabla, pues el nuevo his¬ 
tograma se aproxima mucho mas a la curva de la distribucion normal. 

Observese que sobreponiendose a las barras del histograma se muestra una curva 
normal, que es la que hemos solicitado para compararla con el histograma. 

Otra vez podemos apreciar que la nueva distribucion es mas cercana a la normal. 

Ahora traemos la tabla 7.4 

Al leer los datos vemos que la media, la mediana y la moda estan mucho mas cerca en- 
tre si, de lo que estaban antes de la transformacion de la variable. 

Notamos que los valores de Curtosis y Asimetria se han reducido, mostrando que la dis¬ 
tribucion de la nueva variable logsale se acerca mas a la distribucion normal 
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Tabla 7.4 


Statistics 

logsale 

N 

Valid 

70 

Missing 

0 

Mean 

3,33732686 

Std. Error of Mean 

,125930091 

Median 

3,16328809 a 

Mode 

2,079442 b 

Std. Deviation 

1,053606729 

Variance 

1,110 

Skewness 

,721 

Std. Error of Skewness 

,287 

Kurtosis 

,367 

Std. Error of Kurtosis 

,566 

Range 

4,863037 

Minimum 

1,791759 

Maximum 

6,654797 

Percentiles 

25 

2,52416766° 

50 

3,16328809 

75 

3,96081317 


Resumen 

Hemos analizado las distribuciones de los contactos que se tiene con los encargados de 
las companias para las que la firma produce hardware. 

Se ha analizado la variable de ventas y sus valores han sido transformados en logarit- 
mos naturales, para que su distribucion se acerque mas a la distribucion normal. 

Para ello, hemos utilizado la Opcion Transform, lo que ha permitido que los valores con 
los que se debe trabajar en adelante sean mucho mas utiles que los anteriores. 

A1 final del ejercicio sacaremos los antilogaritmos de los valores pronosticados, pero 
eso sera cuando lleguemos al capitulo de Regresion. 

Diagrama de Caja (Boxplots) 

El Diagrama de Caja muestra indicadores sobre el grado de normalidad de la distribu¬ 
cion de la variable; especialmente nos muestra la asimetria y la curtosis. 

En este capitulo, aprenderemos cuale son sus caracteristicas y en el capitulo 8 tendre- 
mos casos concretos; en la grafica 7.4 tenemos un diagrama de caja tipico. 
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La caja esta entre dos verticales que apuntan hacia arriba y hacia abajo respectivameri¬ 
te; sus longitudes muestran el grado de asimetria de la distribucion. 


Grafica 7.7 
Diagrama de Caja 



-i- <-Maximum 


<-Upper Quartile 


<-Median 



writing score 


<-Lower Quartile 


<-Minimum 


Cada una de las lineas verticales, hacia arriba o hacia abajo, se llama Whisker. 


Si la distribucion de los datos de la muestra fuera normal, ambos whiskers tendrian la 
misma longitud, pero eso sucede muy pocas veces. 

Si el whisker superior es mas corto, la muestra tendra una asimetria negativa, los ele- 
mentos estaran mas concentrados en los valores superiores a la Media. 

Si el whisker inferior es mas corto, la asimetria sera positiva, los elementos de la mues¬ 
tra estaran preferentemente concentrados en los valores inferiores 

Cada whisker termina en una linea horizontal, la que marca sus limites. 

Las Cajas tambien nos proveen information de la c urtosis de cada distribucion. 


Una caja delgada muestra que una gran cantidad de valores estan contenidos en un 
segmento muy pequeno de la muestra; una distribucion con un pico mas alargado 

Una caja inusualmente ancha significara lo contrario; los outliers, o valores extremos, 
estan simbolizados por puntos, circulos o asteriscos mas alia de los limites. 

Los valores extremos se desvian por encima o por debajo de los otros valores. 
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La longitud de la caja nos ofrece un referente acerca de la variabilidad de la distribu¬ 
tion de la muestra. 

En la grafica izquierda de 7.4 vemos letras que representan las caracteristicas de la 
misma. 

El valor maximo dentro de una distancia que no supere 1.5 veces el rango intercuartili- 
co, el que ya sabemos, es Q 3 , esta representado por la letra a. 

Ese espacio muestra el tercer cuartil mas 1.5 veces el rango intercuartilico. 

b es el tercer cuartil (Q 3 ), tambien es el 75 percentil 
c es la mediana (O 2 ) o tambien el porcentil 50 

d es el primer cuartil (Qi) o tambien es el percentil 25. 
e es el valor minimo. 

Pero si hay valores menores a 1.5 veces el rango intercuartilico debajo de Qi, sera el 
primer cuartil menos 1.5 veces el rango intercuartil. 

El estadistico Diagrama de Caja o Boxplot es uno de los mas complejos para captar a 
primera vista la estructura de la distribucion. 

Por eso es que analizaremos con mayor detalle sus caracteristicas, las que nos permiti- 
ran conocer la estructura de la distribucion de los elementos de una muestra. 

La Caja derecha del grafico anterior, muestra los puntos importantes de un Boxplot 


Grafica 7.5 

Diagramas de Caja mostrando centralidad 



A1 analizar una Caja de Diagrama debemos recordar siempre que la linea del centro es 
la Mediana de la distribucion que deseamos analizar. 
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La Caja de la izquierda de la grafica 7.5 representa una muestra de 20 valores con una 
mediana centrada en 7 (representada por la linea gruesa interna) 

La Caja de la derecha: una muestra de 20 valores cuya mediana esta centrada en 12. 

La altura se hace mas grande cuando la desviacion estandar es mayor, como en el 
panel derech de la grafica 7.5 

Con las figuras (traidos de Internet, aunque no se pudo identificar al autor) las caracte- 
risticas y utilidad de la Caja de Diagrama se hacen cada vez mas patentes. 

En la siguiente pagina veremos diferentes caj as de Diagrama o boxplots como Indica- 
dores de Curtosis, tal como se muestra en la grafica 7.7 

Grafica 7.7 


2 °. 

15. 

16 . 

En esta caja, los 20 valores de la muestra 
tienen una distribucion mesocurtica. 

10 . 

La linea gruesa, esto es, la Mediana, esta e. 

cerca del centro y los whiskers son de c . 

igual longitud; se acerca a la Normal , 

2 < 

0 j 



En esta caja, tambien de 20 valores, la 
curva es achatada, platicurtica, pues su 
mediana esta en la parte inferior. 


20 

10 

10 

14 

12 

10 

0 

0 

4 

2 

0 
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20 


18 

16 

La distribucion de 20 valores es lepocurtica 
La Mediana esta en la parte superior de la Caja 

10 

• 

6 

4 

3 

0 



Se denominan hinges a los valores que estan incluidos en la caja misma. 

La Caja de Diagrama como Indicador de Asimetria 

Las colas son los dos extremos, izquierdo y derecho, de una curva de distribucion; en 
la curva normal, esas colas son asintoticas con relacion al eje de las abscisas. 

La Asimetria se muestra a traves de la diferencia de longitudes entre las colas, pues, si 
la distribucion es asimetrica, una de ellas sera mas larga que la otra. 

La Curtosis ideal seria simetrica, como es la de la curva normal, cuyo diagrama de caja 
mostrara sus dos whiskers casi de la misma longitud. 

Graficas 7.8 

Representation de la Asimetria 



Las cajas que se disenan en la grafica 7.8 muestran las formas de asimetria de la distri¬ 
bucion que representan en cada caso. 

En la caja de la izquierda, la muestra de 20 valores tiene una distribucion de largas co¬ 
las, lo que se expresa en la longitud de los whiskers. 

Cada longitud es mucho mayor que la altura de la caja. 
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Si la distribucion se acercara a la normal, la longitud de cada whisker tenderia a ser 
igual a la altura de la caja, como el bolxplot del centro 

En el segundo ejemplo, la longitud de los whiskers es menor a la altura de la caja, lo 
que nos indica que la curtosis es menor que en la caja de la izquierda. 

En la tercera figura, la distribucion de la muestra tiene colas muy cortas y los whiskers 
estan ausentes, esto es, la distribucion que representa se acerca mas a la normal. 

Interpretation 

Mostradas la utilidad de la caja de diagramas, es preciso recordar que se debe evitar 
deducir conclusiones cuando las muestras son muy pequenas 

Por ejemplo, 10 valores o menos 

Por otra parte, es necesario tomar en cuenta los valores que no estan en la caja ni en la 
longitud de los whiskers, que son los que son valores extremos. 

Asi, los whiskers realmente no muestran los valores minimos y maximos de una mues¬ 
tra, sino los que estan a una distancia “razonable” de la caja, abajo o arriba. 

Una muestra con gran asimetria y whiskers, con muchos valores inusuales al costado 
puede aparecer razonablemente simetrica en la caja. 

Pero el SPSS tiene sus controles sobre estos casos; los valores que son mas de tres ve- 
ces la longitud de la caja, arriba o abajo, reciben una anotacion roja. 

Esos valores son identificados con asterisco y entran como valores extremos 

Los valores que tienen entre 1.5 hasta 3 veces la longitud de la caja, arriba o abajo, tie- 
nen una anotacion amarilla; son considerados como outliers. 

Debemos recordar que las palabras outliers y extremes deben ser interpretadas en re¬ 
lation a la distribucion de una curva normal. 

En todo caso, debemos tener en cuenta que los valores extremos son valores que estan 
por arriba o por debajo de los valores outliers, no son sinonimos. 
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PROBLEMAS ABICIONALES 
EN ESTABISTICA BESCRIPTIVA 


Datos Cuantitativos 

Este capitulo sera dedicado a identificar los gastos que los consumidores hacen en el 
rubro de telecomunicaciones, como un ejercicio para el uso del SPSS. 

El objetivo es la identification de cual de los servicios rinde mayor beneficio en una 
empresa determinada. 

Para ello, tomaremos los datos de una compania virtual de telecomunicaciones, la que 
tiene una base de datos de los consumidores que incluye, entre otros: 

Informacion acerca de cuanto gasta un cliente en llamadas a larga distancia, llamadas 
libres, alquiler de equipo, carta de llamadas y servicio 

La informacion pertinente esta en el archivo telco.sav del SPSS 

Lo traemos a pantalla para analizar los datos por medio de la option Descriptive. 

—>Menu —> Analize —» > Descriptive Statistics —> Descriptive 
—>Long distance last month —► Toll free last months Equipment last month, 

—* Calling card last month —> Wireless last month —> Options 

—>Mean —> Std. Deviation —» Variance —> —*■Kurtosis —> Skewness —> Continue —> OK 

La tabla que aparece en el cuadro de resultados muestra los estadisticos sobre el gasto, 
los que seran comparados con los gastos en cada uno de los servicios. 

Pero es dificil distinguir en la tabla cuales servicios son mas rentables. 

En promedio, los clientes gastan mas en equipment rental, pero hay una gran escala de 
variacion en las sumas gastadas. 

Los clientes de calling card service gastan un poco menos en promedio, que en equip¬ 
ment rental, pero hay menos variacion en los valores que representan el gasto 
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Se puede encontrar clientes que gastan mucho mas o mucho menos que otros clientes 
en cada servicio; eso lo conseguimos estandarizando los valores de las variables. 


Tabla de Resultados 8.1 




N 

Mean 

Std. De¬ 
viation 

Skewness 

Kurtosis 

Statis¬ 

tic 

Statis¬ 

tic 

Statistic 

Statis¬ 

tic 

Std. 

Error 

Statistic 

Std. Error 

Long distance last 

month 

1000 

11,72 

3 

10,363 

2,966 

,077 

14,052 

,155 

Toll free last month 

1000 

13,27 

4 

16,902 

1,784 

,077 

8,325 

,155 

Equipment last 

month 

1000 

14,21 

9 

19,068 

,846 

,077 

-,728 

,155 

Calling card last 

month 

1000 

13,78 

1 

14,084 

1,576 

,077 

4,612 

,155 

Long distance over 

tenure 

1000 

574,0 

50 

789,974 

3,092 

,077 

14,216 

,155 

Valid N (listwise) 

1000 








Estandarizacion de Variables 

Las variables estandarizadas se conocen como “z scores.” 

Pero hay un problema. 

Los valores z scores requieren que las distribuciones de las variables sean cercanas a la 
distribucion normal, condicion que las variables escogidas no cumplen. 

Tal como vimos los valores de los estadisticos asimetria y kurtosis son altos, es decir, 
las distribuciones de las variables no son normales. 

Un remedio posible, debido a que todos los valores de las variables son positivos, es 
transformar las variables en sus logaritmos naturales y luego, estudiar los z scores. 

Recordemos el ejercicio anterior para logaritmizar las variables; en esta ocasion, el 
SPSS ya las ha logaritmizado tal como las vemos en la pantalla Data View 

Trabajaremos con esos valores ya logaritmizados del archivo telco.sav 

Menu —»Descriptive Statistics —> Descriptive —> Options 

Si en la pantalla de la derecha aun quedan las variables no logaritmizadas, con la flecha 
de direction las trasladamos hasta el menu de la izquierda 


















Del cuadro a la izquierda inferior seleccionamos las siguientes variables: 

—► Log-long —► Log-wireless —► Log-Equipment —> Log-Calling Card —> Log-wireless 
—►Options —► Mean —► Std. Deviation —Kurtosis —> Skewness —► Continue —► 

-^Save standardized values as variables —> OK 

Copiamos la Pantalla de Resultados 


Tabla de Resultados 8.2 




N 

Mean 

Std. Devia¬ 

Skewness 

Kurtosis 




tion 






Statistic 

Statistic 

Statistic 

Sta¬ 

Std. 

Statis¬ 

Std. 





tistic 

Error 

tic 

Error 

Log-long distance 

1000 

2,1821 

,73455 

,166 

,077 

-,001 

,155 

Log-toll free 

475 

3,2397 

,41381 

,304 

,112 

1,107 

,224 

Log-equipment 

386 

3,5681 

,27756 

,037 

,124 

-,344 

,248 

Log-calling card 

678 

2,8542 

,55729 

,081 

,094 

,109 

,187 

Log-wireless 

296 

3,5983 

,36729 

,200 

,142 

-,168 

,282 

Valid N (listwise) 

131 








Los valores logaritmizados aparecen en las nuevas columnas de la pantalla de Vista de 
datos; tambien aparecen en la pantalla Vista de variables. 

En la pantalla de Resultados aparece la tabla de valores; vemos que la asimetria y la 
curtosis han disminuido con relacion a los valores de las variables no logaritmizadas. 

Sin embargo hay algo mas que debemos hacer 

Convertir a Valores Missing 

Si nos fijamos en las nuevas variables, ya logaritmizadas, nos encontraremos que en 
muchas casillas que en vez de datos tienen puntos 

Esa es la razon por la que copiamos un segmento de la Pantalla Data View 
Alii podemos visualizar que hay varias casillas vacias en las variables 

Esto quiere decir, que no hubo la informacion necesaria para llenar las casillas vacias. 
Estas casillas pueden ser llenadas con lo que se llama Valores Missing 

Con esa operacion tratamos de mejorar la calidad de la informacion respectiva 
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Tabla 8.1 


loglong 

logtoll 

logequi || logcard 

logwire 

1 = 31 


2,01 

1,48 

3,03 


2,72 

3,5E 

2 : 9G 

2,89 


3,41 


2,25 





1,84 





2,47 

2,96 


2,60 


2 : 39 



2,17 


1,80 

3,81 

3,91 

3,15 

4,11 

2.28 

3,35 


2 : 48 


3,18 



2,80 


1,58 


3,26 




La traduccion de Missing es: Valores perdidos. 

Nuestra tarea ahora consiste en tratar las casillas vacias con Valores Missing 

Menu —* Transform —Recode into same variables 

Aparece un menu con las variables a la izquierda y una pantalla vacia a la derecha 

Con el mouse usamos la flecha de direccion para llevar las variables logaritmizadas 
desde la pantalla del menu a la pantalla derecha. 


Debajo de la pantalla derecha hay una casilla que dice: Old and New Values 
Hacemos click en esa opcion y tendremos la siguiente caja 

Cuadro 8.1 


Recode into Same Variables: Old and New Values 


■Old Value 
© Value: 

© System-missing 
© System- or user-missing 
© Range: 

through 

© Rancje, LOWEST through value: 
© Range, value through HIGHEST: 
© All overvalues 


■New Value- 
©Value: f~ 


© System-missing 


Old -> New: 


Add 

Change 

Remove 


[continue ] Cancel _Help 


En la casilla superior izquierda de la seccion primera del cuadro, pulsamos en el boton 
que dice Value 
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En la parte derecha tambien aparece otro boton Value, donde anotamos 0 y luego pul- 
samos la opcion Add para traer el valor 0 a la pantalla inferior 

En esa pantalla aparecera la siguiente inscription: SISMYS —> 0 
Continue —> OK 

En la pantalla Data View veos que en las variables que hemos logaritmizado, las casillas 
que tenian puntos, ahora tienen 0 

Traemos un segmento de esa Pantalla 


Tabla 8.2 


loglong 

logtoll 

logequi 

logcard 

log wire 

1,31 

.00 

,00 

2,01 

,00 

1,48 

3.03 

.00 

2,72 

3,58 

2,90 

2,89 

.00 

3,41 

,00 

2,25 

.00 

.00 

.00 

,00 

1,84 

.00 

,00 

,00 

.00 

2,47 

2.96 

.00 

2,60 

.00 

2,39 


.00 

2,17 

,00 

1.30 

3,31 

3,91 

3,15 

4,17 

2,28 

3,35 

.00 

2,48 

.00 

3,18 

.00 

.00 

2.30 

.00 

1.58 

.00 

3,26 

.00 

.00 

1,96 

3,09 

.00 

3,17 

.00 

2,15 

.00 

.00 

3,73 

.00 

2,75 

3,33 

3,34 

.00 

4,11 

1.48 

.00 

,00 

,00 

.00 

1,63 

.00 

3,41 

2,42 

.00 

2,78 

3,39 

3,44 

3,40 

.00 

1.89 

2,92 

.00 

,00 

,00 


Si comparamos la pantalla 8.2 con la anterior, 8.1 veremos que en las casillas que te¬ 
nian puntos, ahora aparecen ceros 

Mas adelante veremos la utilidad de convertir los valores missing. 

Sin embargo, hay algo que observamos en la Tabla de Resultados 8.2. 

La variable Log toll-free tiene aun una kurtosis apreciable debido a que un cliente gasto 
una suma mensual considerable en el ultimo mes. 

Para analizar esta clase de valores inusuales debemos visualizar los “z scores”. 


97 









































The z-scores 

Un z-score es una variable que ha sido estandardizada 
Luego tendremos esa definition 

Para trabajar con Diagramas de Caja, debemos estandardizar las variables 

Menu —> Analize —> Descriptive Statistics —<• Descriptive 

Con la flecha de direction introducimos en la pantalla blanca de la derecha las cinco 
variables que han sido logaritmizadas: Desde Log-long distance hasta Log-wireless 

Debajo del menu de la izquierda activamos el boton: 

Save Standardize Values as Variables —► OK 

En la Pantalla de Data View veremos inscritas nuestras variables logaritmicas precedi- 
dos por una Zeta; v.g Zlonglong, Zlogtall.... 

Con las variables asi estandardizadas, podemos ir a trabajar con los Diagramas de Caja 

Diagramas de Caja con el SPSS 

Ya estamos familiarizados con las caracteristicas del Boxplot o Diagramas de Caja 

Traemos el archivo Telco.save a la pantalla de Vista de Datos. 

Empezamos con llamar al Diagrama de Caja 

Menu —> Graphs —> Legacy Dialogs —> Boxplot —> Simple —> 

—*■ Summaries of separate variables —> Define 

En la pantalla a la derecha introducimos las variables convertidas en z-scores 

Options —* Exclude cases variable by variable —> Continue —> OK 

La Pantalla de Resultados registra una tabla y el Diagrama de Boxplots of Z-scores 
Este es el diagrama que necesitamos 

La copiamos para traerla y analizar las caracteristicas que tiene 

En los diagramas de caja vemos, por ejemplo, que en la variable Log-long distance hay 
valores extremos, 200 y 207 

Estos valores son extremos, lo que definiremos de inmediato 

Un outlier, lo vimos ya, es una observation cuyo valor varia significativamente de los 
valores de la mayoria de las observaciones. 
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Tecnicamente se define como un valor cuya distancia al cuartil mas proximo es supe¬ 
rior a 1,5 veces el rango intercuartil. 


Diagrama de Caja 8.1 



Zscore: Log-long Zscore: Log-toll free Zscore: Log- Zscore: Log-calling Zscore: Log-wireless 
distance equipment card 


Los outliers deforman la muestra porque tienden a sesgarla hacia valores extremos 

Para tener una mejor vision de la information que nos proporcionan los Diagramas de 
Caja, vamos a llamar a otro archivo y a usar otra opcion del SPSS 

La Opcion Explore y el Analisis de datos 

La exploration de los datos, por medio del procedimiento Explore, ayuda a determinar 
si las tecnicas de la ciencia estadistica que usamos son o no apropiadas. 

El procedimiento Explore nos provee de resumenes visuales y numeros de los datos, ya 
sea para todos los casos por separado o ya para grupos de casos. 

La variable dependiente a ser analizada debe ser una variable de escala. 

Las de grupo pueden ser nominales u ordinales. 

Con Explore podemos obtener los diagramas de caja, identificar los outliers, chequear 
los supuestos y las diferencias entre los grupos. 

Estadlsticas descriptivas cruzando grupos 

Ejemplo; las cosechas de maiz deben ser testadas para establecer si hay o no el ele- 
mento aflatoxin, un veneno cuya concentration varia entre las cosechas. 
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Una firma que procesa granos ha recibido 8 diferentes cosechas, pero la distribution 
de aflatoxin, en partes por billon, debe ser estimada antes de que sean aceptadas. 

Este ejemplo usa el archivo aflatoxin.sav cuyos datos consisten en 16 muestras de cada 
una de las entregas de las ocho en que se han transado la operation. 

Menu —> Analize —* Descriptive Statistics —> Explore 

Aflatoxin PPB como la variable dependiente y Corn Yield como la variable factor —<• OK 

En la pantalla de resultados tenemos el cuadro general para las 8 entregas (Yields) y 
las 16 muestras que se ha elegido de cada una. 


Tabla de Resultados 8.3 



Corn Yield 

Statistic 

Std. 

Error 

Aflatoxin 

1 

Mean 

20,2500 

1,07819 

PPB 


95% Confidence Interval 

Lower 

17,9519 




for Mean 

Bound 






Upper 

22,5481 





Bound 





5% Trimmed Mean 

20,4444 




Median 

21,5000 




Variance 

18,600 




Std. Deviation 

4,31277 




Minimum 

12,00 




Maximum 

25,00 




Range 

13,00 




Interquartile Range 

8,00 




Skewness 

-,788 

,564 



Kurtosis 

-,655 

1,091 




33,0625 

3,04339 


Luego nos da la tabla con los estadisticos respectivos para cada una de las 8 entregas 
Los cuadros son muy extensos para copiarlos. 

Pero traemos los datos para la primera entrega de las ocho, Tabla de Resultados 8.3 
En la segunda Columna estan registrados los valores de cada indicador. 

En la tercera columna se registran los valores del error estandar, si corresponde. 

En la tabla de resultados 8.3, hay tres nuevos conceptos que debemos captar 
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Interquartile Range 

El Rango Intercuartil es la diferencia que hay entre el tercer y el primer cuartil de una 
distribucion; es una medida de dispersion estadistica: RI = 0 3 - Qi 

Si dividimos la expresion anterior entre dos, tendremos la desviacion intercuartil 
Esta medida es importante cuando la medida de tendencia central ha sido la Mediana 

Se usa para estructurar y analizar los diagramas de Caja y bigote 
Este ultimo sera analizado en el ultimo capitulo de la obra 

Confidence Interval 

El Intervalo de confianza de un indicador estadistico esta conformado por dos valores 
limite: el limite inferior y el limite superior. 

Es muy importante, pues nos ofrece mayor seguridad en nuestras apreciaciones. 
Ejemplo, Supongamos que la Media de una distribucion es 45 

Con los instrumentos que aprenderemos en esta obra, podriamos establecer por ejem¬ 
plo que la Media citada se encuentra entre los limites: 43 y 47 

En este ejemplo, el limite inferior sera 43 y el superior, 47 

Esto quiere decir que la Media puede tomar algun valor entre esos limites 

En la Tabla de resultados, la Media = 25 

El limite inferior es 17,9519 
El limite superior es 22,5481 

Esto es, la Media podria tomar cualquier valor entre los limites senalados. 

Esto se debe a que tratamos con muestras, no con poblaciones. 

Luego veremos las probabilidades de que ese sea el Intervalo de Confianza 

Trimmed Mean 

Es una Media a la que se le ha recortado el %% de los valore extremos, tanto inferiores 
como superiores, para evitar sesgos inapropiados 

La Opcion Explore y el Analisis de datos 

La exploration de los datos, por medio del procedimiento Explore, ayuda a determinar 
si las tecnicas de la ciencia estadistica que usamos son o no apropiadas. 

El procedimiento Explore nos provee de resumenes visuales y numeros de los datos, ya 
sea para todos los casos por separado o ya para grupos de casos. 

La variable dependiente a ser analizada debe ser una variable de escala. 

Las de grupo pueden ser nominales u ordinales. 
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Con Explore podemos obtener los diagramas de caja, identificar los outliers, chequear 
los supuestos y las diferencias entre los grupos. 

Estadisticas descriptivas cruzando grupos 

Ejemplo; las cosechas de maiz deben ser testadas para establecer si hay o no el ele- 
mento aflatoxin, un veneno cuya concentration varia entre las cosechas. 

Una firma que procesa granos ha recibido 8 diferentes cosechas, pero la distribution 
de aflatoxin, en partes por billon, debe ser estimada antes de que sean aceptadas. 

Este ejemplo usa el archivo aflatoxin.sav cuyos datos consisten en 16 muestras de cada 
una de las entregas de las ocho en que se han transado la operation; traemos el archivo 

Menu —> Analize —* Descriptive Statistics —► Explore —> Aflatoxin PPB como la variable 
dependiente y Corn Yield como la variable de factor —► OK 


Tabla de Resultados 8.4 



Corn Yield 

Statistic 

Std. 

Error 

Aflatoxin 

PPB 

1 

Mean 

20,2500 

1,07819 

95% Confidence Interval 

for Mean 

Lower 

Bound 

17,9519 


Upper 

Bound 

22,5481 


5% Trimmed Mean 

20,4444 


Median 

21,5000 


Variance 

18,600 


Std. Deviation 

4,31277 


Minimum 

12,00 


Maximum 

25,00 


Range 

13,00 


Interquartile Range 

8,00 


Skewness 

-,788 

,564 

Kurtosis 

-,655 

1,091 






De acuerdo con los terminos del ejemplo, el limite establecido acepta como maxima 
una proportion de 20 unidades de aflatoxin por billon. 

En la pantalla de resultados tenemos el cuadro general para las 8 entregas (Yields) y 
las 16 muestras que se ha elegido de cada una. 
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Luego nos da la tabla con los estadisticos respectivos para cada una de las 8 entregas; 
los cuadros son muy extensos para copiarlos, pero podemos analizar uno de ellos 

La Tabla de Resultados de la primera entrega tiene una Media de 22.25 unidades por 
billon, al parecer algo superior a los 20 por billon exigidas por los compradores. 

Sin embargo, cuando lleguemos al capitulo sobre la Significancia Estadistica podremos 
determinar si ese indicador esta o no dentro del rango de la Media 

La Tabla Pivoteada 

En la Pantalla de Resultados anterior vimos una extensa Tabla de Resultados que incluia 
los indicadores para las 8 entregas 

Nosotros trajimos solo la primera muestra por lo extenso del cuadro; ahora debemos 
analizara cuales entregas tiene menos de 20 unidades por billon 

Hacemos doble click en cualquier lugar de la tabla grande, la que se hara un tanto os- 
cura y aparecera una nueva; en el menu de esa tabla hay la opcion Pivote, la activamos. 

Hacemos click en Pivote Trays, la activamos y tenemos la siguiente bandeja: 


Bandeja 8.1 



Con el cursor arrastramos la etiqueta Statistics a la casilla Stat Type 
De inmediato aparecera la tabla pivoteada que es demasiado extensa para traerla 

La tabla pivoteada nos muestra, en forma horizontal, todos los indicadores estadisticos 
que hemos estudiado hasta ahora, 
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En esa tabla observamos que de acuerdo con la media, solo las entregas 4, 7 y 8 caen 
por debajo de las 20 unidades por billon establecidos. 

Pues las medias aritmeticas de cada una de ellas, son menores a 20 unidades de afloto- 
xin por billon, que era el requerimiento exigido. 

Necesitamos ahora, los Diagramas de Caja para visualizar mejor estos datos 

Menu —► Descritive Statistics —<• Explore —► Options —> Descritiv —> Outliers 


Diagrama de Caja 8.2 



La Pantalla de Resultados muestra dos tipos de informacion, de las cuales, por el mo¬ 
menta, nos interes solo los Diagramas de Caja para cada una de las muestras 

Las caracteristicas de los Diagramas de Caja fueron analizadas en el anterior capitulo 
Vemos que hay valores extremos, los que merecen una atencion especial. 

Ya lo dijimos, la linea gruesa dentro de una caja marca la Mediana de la distribucion, 
que es tambien el percentil 50 de esa misma distribucion. 

Ejemplo, la Mediana del nivel de aflatoxin en el grupo 1 es 21.50 por billon 
Observemos que las medianas varian considerablemente entre los diagramas de caja. 

Los hinges 

Son los limites de las cajas de cada variable. 

Los limites inferiores (hinges) de las cajas marcan el percentil 25. 

Las lineas superiores (hinges) de las cajas marcan el percentil 75 de cada distribucion. 


104 















Para el grupo 1, v.g, el valor inferior de la caja es de 17,9519 unidades aflotoxin por 
billon y el valor superior es 22,5481 unidades de aflotoxin por billon 

Para el grupo 3, el valor inferior es 27.1954 y el superior es 38.1796 

En la tabla grande, estos valores corresponden a los limites inferiores y superiores de 
los intervalos de confianza de cada muestra. 

Los Whiskers 

Son las lineas verticales que parten de los hinges 

Los whiskers aparecen encima y debajo de los limites de las cajas, es decir, por encima 
y debajo de los hinges; para el grupo 2 el valor mlnimo es 22 y el maximo es 52. 

Los valores outliers, estan identificados con la letra mayuscula “O”. 

El grupo 2 tiene un valor outlier de 68 y esta etiquetado con 20 

Esto nos dice que el elemento numero 20 de la muestra tiene un valor de 68, es decir, 
un valor por encima de los demas; es un outlier. 

El grupo 5 tiene un valor outlier de 49, etiquetado con 71; nos indica que el elemento 
numero 71 de la muestra tiene un valor 49, que esta muy alejado de los demas. 

Valores extremos y ourliers 

Los valores extremos son identificados con asterisk (*) 

No hay valores extremos en estos datos. 

Explorando los datos de las Muestras 

Ahora conoceremos los que es “capa” (layer) el uso del estadistico “hojas y tallos” y la 
manera de establecer la cercania o alejamiento de una distribucion a la normal. 

Siguiendo nuestra metodologia, lo haremos por medio de ejemplos concretos. 

Una compania manufacturera usa nitrido de plata para fabricar soportes de ceramica 
que deberan resistir temperaturas de 1500 grados centigrados o mayores. 

Se sabe que la distribucion de una aleacion “estandar” de resistencia al calor es nor¬ 
mal; pero ahora se prueba una nueva aleacion “premiun”. 

Asumimos que su distribucion no es conocida. 

Se nos pide comparar los resultados y, en su caso, las diferencias sobre las caracteris- 
ticas entre dos muestras logradas en la fabrica. 

Plantearemos un problema especifico y una vez que tengamos los datos, los interpret a- 
remos en detalle; para el problema usaremos la opcion Explorar. 
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Traemos el archivo ceramics, save 


►Alloy (Aleacion) como el factor variable — labrunid (como la etiqueta de casos) 
►statistics: descriptive —► Continue —<• OK 


Tabla de Resultados 8.5 



Alloy 

Statistic 

Std. 

Error 

Degrees 

Premium 

Mean 

1542,07 

,61165 

Centigrade 


95% Confidence Interval 

Lower Bound 

1540,87 




for Mean 

Upper Bound 

1543,28 




5% Trimmed Mean 

1541,280 




Median 

1539,711 




Variance 

89,789 




Std. Deviation 

9,47569 




Minimum 

1530,44 




Maximum 

1591,04 




Range 

60,61 




Interquartile Range 

11,51 




Skewness 

1,439 

,157 



Kurtosis 

3,036 

,313 


Standard 

Mean 

1514,65 

,62004 



95% Confidence Interval 

Lower Bound 

1513,43 




for Mean 

Upper Bound 

1515,87 




5% Trimmed Mean 

1514,73 




Median 

1514,53 




Variance 

92,269 




Std. Deviation 

9,60566 




Minimum 

1488,30 




Maximum 

1537,99 




Range 

49,69 




Interquartile Range 

13,51 




Skewness 

-,078 

,157 



Kurtosis 

-,343 

,313 


—>Menu —> Analize —» Descriptive Statistics —*■ Explore —» 
-^Degrees Centigrade (como la variable dependiente) 


En en la Tabla de Resultados 8.5, la columna Alloy (Aleacion) sirve de capa (Layer) a 
los dos procedimientos: el Standard y Premiun. 
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La columna de Degrees Centigrade, muestra los estadisticos de las temperaturas que 
cada tipo de aleacion (Estandar y Premiun) alcanza 

Por ejemplo, la Media del metodo Premiun es 1542,07. 

Su intervalo de confianza: el limite mlnimo es 1540,87 y el limite maximo es 1543,28 
Esto quiere decir que el metodo Premium soporta temperaturas hasta 1543.28 grados 
Por su parate, la Media del metodo Standard es 1514,65 

Su intervalo de confianza: el limite mlnimo = 1513.43 y el limite maximo es 1515.87 

Pero el valor de las Medianas muestra un significado inverso 

Para el soporte Premiun, 1539,72 
Para el soporte Standard, 1514,53. 

Pero la simetria y la curtosis son menores en el soporte Standard. 

Esto nos sugiere que la distribucion Standard tiende mas a la Normal que la Premiun. 

La diferencia entre la Media y la Mediana, en Premiun, parece significativa. 

En la segunda parte de esta obra aprenderemos a usar las Pruebas de Normalidad. 

Mientras tanto, analicemos los estadisticos que nos muestra la tabla de resultados. 

Observemos que la tabla de estadisticos divididos por soporte Premiun y Standard del 
anterior capitulo incluye la Media Recortada (Trimmed mean) 

La Media Recortada deriva de la exclusion del 2.5% de los valores mas bajos y del 
2.5% de los valores mas altos de cada muestra 

Eso es lo que significa el 5% escrito al lado. 

Lo hace asi para omitir los valores extremos que podrian deformar la muestra. 

Si el valor de la Trimmed mean, excluido el 5% de los valores extremos, es muy dife- 
rente de la media, sabremos que nos encontraremos con valores outliers. 

La Media recortada en el soporte Premium, 1541,28 es mayor que la de Standard 
1514,73 esto es, el soporte Premiun tiene mayor resistencia al calor que el Standard. 

La Pantalla de resultados tambien desplego los Diagramas de Caja individuales para 
ambas aleaciones Premiun y Standard con sus respectivos outliers y valores extremos 

Estos datos apoyan lo que ya sabiamos por los anteriores indicadores: 

Los datos de la distribucion sobre la resistencia al calor del soporte Standard tienen una 
distribucion mas cercana a la normal, que las aleaciones del soporte Premiun. 
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Los diagramas de caja tambien despliegan valores extremos y outliers mayores y me- 
nores, clasificados por Alloy (aleacion) para ambos soportes Premiun y Standard 

Esto se observa en el Diagrama de Caja 8.4 


Diagrama de Caja 8.4 



Los Diagramas de Caja 8.4 nos sugieren que dada la presencia de outliers en el soporte 
Premiun es necesario comprobar si ambas muestras tienen la misma varianza. 

Ese es un aspecto cuyo estudio corresponde al capitulo Analisis de la Varianza ANOVA, 
el que sera incluido con detalle en la segunda parte de esta obra. 

Es decir en lo que corresponde a Inferencia Estadistica 

Hojas y Talios (Stem-and-Leaf Plot) 

Por ahora, vayamos al nuevo Estadistico: Hojas y Tallos ( Stem-and-leaf plots) opcion 
que nos muestra los valores exactos de las observaciones individuales. 

No solo de las medias o de otro tipo de estadisticos, sino de todos y cada uno de los 
valores individuales, algo que es de gran interes en los controles de calidad. 

Para visualizar mejor sus caracteristicas, repitamos el ejercicio anterior. 
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Traigamos el archivo ceramics.save 


Repitamos el proceso, pero en la opcion graficos del cuadro de dialogo de Explore, 
pulsemos la casilla Plots —> Stem-and-Leaf plots —► Continue —► OK 

En la pantalla de Resultados aparecera la informacion requerida. 

Empezaremos el analisis del soporte Premium. 

Interpretation de la gralica Talios y Hojas 

La columna izquierda registra las frecuencias de cada nivel de temperatura 

En total suman 240 valores, los que coinciden con el numero que nos da el cuadro de 
Resumen del procesamiento de los casos 


Estadistico Tallo y Hojas 
(Stem-and-Leaf Plot for batch= Standard) 


Frequency 

Stem 

& Leaf 

2,00 

148. 

88 

2,00 

149. 

44 

12,00 

149. 

566677788999 

22,00 

150. 

0001111122333333333444 

35,00 

150. 

55555555666667777777777777888888999 

54,00 

151. 

000000001111111111112222222333333333333333444444444444 

43,00 

151. 

5555556666666667777777777777778888899999999 

32,00 

152. 

00000000011111122223333333334444 

22,00 

152. 

5555555666667777888899 

15,00 

153. 

000000122223344 

1,00 

153. 

7 


Los datos de columna del medio, se llama Stem y los de la ultima columna, Leaf. 
Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00 

La columna de Stem registra 150 y la columna de Leaf los valores que completan el va¬ 
lor 150 de la columna Stem, empezando por 0. 

Escojamos el primer “0” de Leafy lo anadamos a 150 de Stem: tendremos 1500; hay 3 
ceros en la columna Leaf, habra 3 casos que soportan temperaturas de 1500 grados 

Escojamos ahora el valor de Stem de 151; hay dos frecuencias para ese valor, que son 
54 y 43, datos a la izquierda de 151 y de 151; elijamos el que tiene la frecuencia de 54. 

Agregamos el primer 0 de la columna de Leaf al valor de 151, este se convertira en 
1510; como hay 8 ceros en la columna Leaf, entonces habra 8 observaciones de 1510 

Es decir, 8 casos que registran una capacidad de soportar 1510 grados centigrados. 
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Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo mismo, 
anadiendo al valor Stem el primer 1 de la columna Leaf. 

El valor Stem se convertira en 1511; como hay doce valores “1”, entonces sabremos 
que habra doce observaciones que representan soportes de 1511 grados. 

Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente. 

El resultado nos dara 7 valores de 1512, 15 valores de 1513y 12 valores de 1514 que 
soportan esas temperaturas medidas en grados centigrados. 

El valor de la primera columna a la izquierda, Frecuency, nos dice que en total hay 54 
soportes que resisten temperaturas desde 1510 hasta 1514 grados centigrados. 

Esto quiere decir que la mayor parte de los elementos de Standard soportan tempera¬ 
turas entre 1505 y 1519 grados. 

Los datos nos indican que los valores se concentran, entre 1505 y 1519 grados. 


Estadistico de Tallo y Hojas 
(Stem-and-Leaf Plot for batch= Premium) 

Frequency Stem & Leaf 


24,00 

153. 

000000011111111111111111 

22,00 

153. 

2222222222333333333333 

26,00 

153. 

44444444445555555555555555 

26,00 

153. 

66666666666666777777777777 

24,00 

153. 

888888888888899999999999 

19,00 

154. 

0000000000111111111 

25,00 

154. 

2222222222222223333333333 

10,00 

154. 

4444455555 

12,00 

154. 

666666667777 

10,00 

154. 

8888999999 

8,00 

155. 

00111111 

4,00 

155. 

2223 

6,00 

155. 

445555 

6,00 

155. 

666667 

6,00 

155. 

888899 

3,00 

156. 

011 

3,00 

156. 

223 

6,00 

Extremes (>=1566) 


Realizaremos el mismo analisis de los datos con la tabla Stem-and-Leaf para los sopor¬ 
tes Premium. 


El grafico para Premium nos muestra, por ejemplo, que hay 24 observaciones que so¬ 
portan desde 1538 hasta 1539 grados centigrados de calor. 
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Habra 8 muestras que soportan desde 1550 hasta 1551 grados centigrados de calor. 

Procedimientos relacionados 

Podemos usar el procedimiento Frequencies para resumir y estandarizar variables de 
escala y variables categoricas 

Tambien podemos usar el procedimiento Means que provee estadisticas descriptivas y 
ANOVA para estudiar la relacion entre variables de escala y categoricas. 

El procedimiento Summarize provee estadisticas descriptivas y resumenes de casos 
para examinar las relaciones entre variables de escala y categoricas. 

El procedimiento OLAP Cubres nos proporciona estadisticas descritivas para analizar 
las relaciones entre variables escala y categoricas. 

Por ultimo, el procedimiento Correlations provee resumenes que describen la relacion 
entre dos variables de escala. 


Todos esos procedimientos seran analizados en la segunda parte de este Manual. 
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Aleluya: con esto hemos terminado la primera parte de este curso, es decir, he- 
mos concluido el programa de la Estadistica Descriptiva y la Probabilidad. 

La Estadistica Descriptiva es el pivote central en el que descansan las otras ramas de 
nuestra disciplina; espero que la hayan asimilado muy bien, pues nos sera muy util. 

Con estos conocimientos adquiridos estamos listos para empezar con la segunda parte 
del Manual, esto es, Inferencia Estadistica. 
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2. INFERENCIA 
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9 

PRUEBAS DE HIPOTESr 


La prueba de hipotesis forma parte de la Inferencia Estadistica. 

Se define la Inferencia Estadistica como: 

Una de las dos ramas fundamentales de la Estadistica cuyo objeto es llegar a conclusio- 
nes sobre las caracteristicas de una poblacion, usando como escenario de analisis la 
muestra que se ha obtenido de esa poblacion. 

El Teorema del Limite Central, como vimos en la parte primera, establece que una 
muestra adecuada refleja las caracteristicas de la poblacion respectiva. 

La Inferencia Estadistica tiene un conjunto ya probado de tecnicas para medir el grado 
de certidumbre de las conclusiones a partir del estudio de la muestra. 

Queda claro, a partir de la definicion, que si en vez de la muestra se tiene los datos 
completos de la poblacion, la Inferencia Estadistica deja de tener sentido. 

Por otro lado, a diferencia de las matematicas, la estadistica no es una ciencia exacta. 

A1 contrario, siempre toma en cuenta la probabilidad de error. 

La Inferencia Estadistica acepta dos divisiones principales: 

La Inferencia Parametrica 

Opera sobre muestras cuyas poblaciones tienen una forma determinada de distribu¬ 
tion (La Normal, la de Poisson, la Binomial...) 

En este tipo de inferencia se conoce las distribuciones de los valores pero se ignoran 
los parametros que son, precisamente, los que deseamos saber 

Inferir sobre los valores de los parametros de la poblacion, a traves del analisis de una 
muestra, es la tarea principal de la Inferencia Estadistica. 

La Estimation de los parametros puede ser puntual o por intervalos. 

Por otra parte es necesario tener presente que hay varias clases de muestra para el 
analisis y las inferencias respectivas acerca de la poblacion. 
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De todas ellas, en este curso usaremos la muestra aleatoria, tal como quedo definida en 
capitulos anteriores. 

Muestras pequenas 

Por lo general, las muestras que se obtienen en los trabajos de campo son pequenas y 
no se conoce la desviacion estandar de la poblacion. 

Por este motivo es que nuestro analisis se concentrara en las muestras pequenas, aun- 
que no hay ninguna diferencia de procedimiento con las muestras grandes. 

Cuando nos referimos a las muestras pequenas, no vamos a la curva normal sino a la 
curva de distribution “t”. 

La Muestra Aleatoria 

La teoria de las muestras establece que de una poblacion dada es posible extraer un 
numero muy grande de muestras del mismo tamano. 

Si todas y cada una de esas muestras tienen la misma probabilidad de ser escogidas, 
entonces tendremos una Muestra Aleatoria. 

Del mismo modo, todos los elementos que componen una muestra aleatoria tambien 
son aleatorios, es decir, todos tienen la misma probabilidad de ser escogido. 

Con estas breves consideraciones ya podemos encarar el nuevo tema. 

Para empezar nuestro trabajo es preciso definir algunos terminos. 

Hipotesis Nula 

Es la suposicion que deseamos testar; se simboliza con Ho. 

Supongamos que deseamos testar la hipotesis de que la media aritmetica del ingreso 
de una de una poblacion es de $500 semanales. 

Escogemos una muestra aleatoria de esa poblacion. 

La manera de representar esta suposicion es: Ho: p = 500 = Hipotesis Nula 
Supongamos que hay algunos indicios para dudar de que la media sea 500. 

Para asegurarnos, contrastamos la Ho con otra, llamada Hipotesis Alternativa 


Hipotesis alternativa 

Se simboliza como Hp esta hipotesis puede presentarse de tres maneras: 


H 1: p > 500; la media, segun la hipotesis alternativa, es mayor que 500. 
Hp p < 500; la media segun la hipotesis alternativa es menor que 500. 
Hp p 4= 500; la hipotesis alternativa dice que la media no es igual a 500 
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Una vez que tenemos planteadas las hipotesis es preciso escoger un criterio que nos 
permita aceptar o no aceptar la hipotesis nula con un nivel adecuado de confianza. 

Origen del Test de Hipotesis 

Los primeros intentos sobre el test de hipotesis vienen del ano 1279 en Inglaterra. 

Cada vez que se forjaba monedas, un numero pequeno de ellas eran depositadas en 
una caja cerrada; un jurado de herreros tomaba una de las monedas al azar. 

Luego comparaba si la moneda entraba en una zona de tolerancia con relacion a su pe¬ 
so y la ley del oro que por ley debia contener. 

En cada uno de los intentos, se suponia dos hipotesis 

Ho: Las monedas estan en la zona de tolerancia 

Las monedas estan fuera de la zona de tolerancia 

Son las que ahora conocemos como nula y alternativa, respectivamente. 

El Nivel de Significancia 

Recordemos que lo que estamos testando es la diferencia de dos medias: la que se su- 
pone verdadera, planteada por la Ho y la que obtenemos de la muestra. 

Pero es preciso aceptar que habra un margen de error en la estimation. 

Ese margen de error determina si se acepta o no que la diferencia entre las dos medias 
sea estadisticamente significativa; supongamos que aceptamos un error del 5% 

Esto quiere decir que aceptamos la probabilidad teorica de que de cada cien muestras, 
cinco esten fuera de los limites establecidos al plantear la hipotesis. 

Ahora bien, en este caso, si la diferencia de las medias es estadisticamente signi¬ 
ficativa, es decir, mayor del 5%, rechazaremos la Ho. 


Grafica 9.1 
Curva distribution t 
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Con el objeto de visualizar la interpretation del nivel de significancia, en este caso, del 
5%, se disena la Grafica 9.1, que es una curva de distribucion “t” 

Asumiremos que la Hipotesis alternativa: Hx ^ |j, es decir, una alternativa de dos colas, 
por lo que la Grafica 9.1, se divide en tres partes. 

La primera, la mas extensa, es el area de aceptacion, esto quiere decir que si el esta- 
distico estimado cae en esa area, aceptaremos la Ho. Por otro lado, cada una de las co¬ 
las corresponde a la mitad del error del 5%, por lo tanto, en cada una habra el 2.5% de 
cometer el error a partir de la vertical. 

Si el valor del estadistico que vamos a estimar cae entre una de las dos colas, recha- 
zaremos la Ho, pues estara fuera del area de aceptacion. Si escogieramos un nivel de 
significancia del 10% de dos colas, entonces el area de aceptacion seria 90% y cada 
cola tendria el 5% de probabilidad de error. 

Por otra parte, si la Hx postula que la media es mayor que la planteada por la Ho enton¬ 
ces tendremos un test de una sola cola a la derecha, como la Grafica 1.2. 

Si la Hi planteara que la media es menor que la postulada por la Ho, el 5% de error se 
concentraria en la cola izquierda y el area de aceptacion continuaria 95% 

Si el nivel de significancia es del 5%, el area de aceptacion sera del 95% y habra una 
sola cola, la que estara a la derecha de la curva, conteniendo el 5% del error 

Si el estadistico que vamos a estimar cae en la cola del 5%, rechazaremos la Ho dado 
que ese valor esta en la zona de error. 


Grafica 1.2 
Una sola cola 



En Sintesis 

Para llevar a cabo un test de hipotesis procedemos del siguiente modo 

Primero, establecer una hipotesis nula: Ho, la que sera testada por la Hi 
Segundo, establecer un nivel de significancia o error (el 5% o el 1%) 

Para realizar ejercicios manuales antes de ingresar al SPSS, traeremos la Tabla “t” 
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Esta Tabla es la que se usa para muestras. 


Tabla 9.1 

La distribution “t” 


One Sided 

75% 

80% 

85% 

90% 

95% 

97.5% 

99% 

99.5% 

99.75% 

99.9% 

99.95% 

Two Sided 

50% 

60% 

70% 

80% 

90% 

95% 

98% 

99% 

99.5% 

99.8% 

99.9% 

1 

1.000 

1.376 

1.963 

3.078 

6.314 

12.71 

31.82 

63.66 

127.3 

318.3 

636.6 

2 

0.816 

1.061 

1.386 

1.886 

2.920 

4.303 

6.965 

9.925 

14.09 

22.33 

31.60 

3 

0.765 

0.978 

1.250 

1.638 

2.353 

3.182 

4.541 

5.841 

7.453 

10.21 

12.92 

4 

0.741 

0.941 

1.190 

1.533 

2.132 

2.776 

3.747 

4.604 

5.598 

7.173 

8.610 

5 

0.727 

0.920 

1.156 

1.476 

2.015 

2.571 

3.365 

4.032 

4.773 

5.893 

6.869 

6 

0.718 

0.906 

1.134 

1.440 

1.943 

2.447 

3.143 

3.707 

4.317 

5.208 

5.959 

7 

0.711 

0.896 

1.119 

1.415 

1.895 

2.365 

2.998 

3.499 

4.029 

4.785 

5.408 

8 

0.706 

0.889 

1.108 

1.397 

1.860 

2.306 

2.896 

3.355 

3.833 

4.501 

5.041 

9 

0.703 

0.883 

1.100 

1.383 

1.833 

2.262 

2.821 

3.250 

3.690 

4.297 

4.781 

10 

0.700 

0.879 

1.093 

1.372 

1.812 

2.228 

2.764 

3.169 

3.581 

4.144 

4.587 

11 

0.697 

0.876 

1.088 

1.363 

1.796 

2.201 

2.718 

3.106 

3.497 

4.025 

4.437 

12 

0.695 

0.873 

1.083 

1.356 

1.782 

2.179 

2.681 

3.055 

3.428 

3.930 

4.318 

13 

0.694 

0.870 

1.079 

1.350 

1.771 

2.160 

2.650 

3.012 

3.372 

3.852 

4.221 

14 

0.692 

0.868 

1.076 

1.345 

1.761 

2.145 

2.624 

2.977 

3.326 

3.787 

4.140 

15 

0.691 

0.866 

1.074 

1.341 

1.753 

2.131 

2.602 

2.947 

3.286 

3.733 

4.073 

16 

0.690 

0.865 

1.071 

1.337 

1.746 

2.120 

2.583 

2.921 

3.252 

3.686 

4.015 

17 

0.689 

0.863 

1.069 

1.333 

1.740 

2.110 

2.567 

2.898 

3.222 

3.646 

3.965 

18 

0.688 

0.862 

1.067 

1.330 

1.734 

2.101 

2.552 

2.878 

3.197 

3.610 

3.922 

19 

0.688 

0.861 

1.066 

1.328 

1.729 

2.093 

2.539 

2.861 

3.174 

3.579 

3.883 

20 

0.687 

0.860 

1.064 

1.325 

1.725 

2.086 

2.528 

2.845 

3.153 

3.552 

3.850 

21 

0.686 

0.859 

1.063 

1.323 

1.721 

2.080 

2.518 

2.831 

3.135 

3.527 

3.819 

22 

0.686 

0.858 

1.061 

1.321 

1.717 

2.074 

2.508 

2.819 

3.119 

3.505 

3.792 

23 

0.685 

0.858 

1.060 

1.319 

1.714 

2.069 

2.500 

2.807 

3.104 

3.485 

3.767 

24 

0.685 

0.857 

1.059 

1.318 

1.711 

2.064 

2.492 

2.797 

3.091 

3.467 

3.745 

25 

0.684 

0.856 

1.058 

1.316 

1.708 

2.060 

2.485 

2.787 

3.078 

3.450 

3.725 

26 

0.684 

0.856 

1.058 

1.315 

1.706 

2.056 

2.479 

2.779 

3.067 

3.435 

3.707 

27 

0.684 

0.855 

1.057 

1.314 

1.703 

2.052 

2.473 

2.771 

3.057 

3.421 

3.690 

28 

0.683 

0.855 

1.056 

1.313 

1.701 

2.048 

2.467 

2.763 

3.047 

3.408 

3.674 

29 

0.683 

0.854 

1.055 

1.311 

1.699 

2.045 

2.462 

2.756 

3.038 

3.396 

3.659 

30 

0.683 

0.854 

1.055 

1.310 

1.697 

2.042 

2.457 

2.750 

3.030 

3.385 

3.646 
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40 

0.681 

0.851 

1.050 

1.303 

1.684 

2.021 

2.423 

2.704 

2.971 

3.307 

3.551 

50 

0.679 

0.849 

1.047 

1.299 

1.676 

2.009 

2.403 

2.678 

2.937 

3.261 

3.496 

60 

0.679 

0.848 

1.045 

1.296 

1.671 

2.000 

2.390 

2.660 

2.915 

3.232 

3.460 

80 

0.678 

0.846 

1.043 

1.292 

1.664 

1.990 

2.374 

2.639 

2.887 

3.195 

3.416 

100 

0.677 

0.845 

1.042 

1.290 

1.660 

1.984 

2.364 

2.626 

2.871 

3.174 

3.390 

120 

0.677 

0.845 

1.041 

1.289 

1.658 

1.980 

2.358 

2.617 

2.860 

3.160 

3.373 

OG 

0.674 

0.842 

1.036 

1.282 

1.645 

1.960 

2.326 

2.576 

2.807 

3.090 

3.291 


Uso de la Tabla “t” 

Ahora aprenderemos a usar los valores de la tabla “t”, por medio de ejercicios que nos 
permitan familiarizarnos con este importante estadistico. 

Procederemos del mismo modo que procedimos con la Curva Normal; es decir, antes 
de recurrir al SPSS, aprenderemos a usar manualmente la tabla “t”. 

El principio es similar al de la tabla “z” o normal que vimos en capitulo anterior. 

En la parte superior se muestra dos filas: para una cola y para dos colas. 

En cada caso, los encabezamientos de las columnas indican el nivel de confianza. 

Si el numero de elementos de una muestra es > 30, la distribution tiende a la Normal, 
por lo que podriamos usar la tabla para la normal en vez de la presente “t”. 

Ejercicio 1 

Una maestra de escuela dice que el promedio de calificaciones de sus alumnos es de 
90 puntos; el director desea saber si esta en lo cierto. 

El Director nos pide que realicemos los estudios necesarios para confirmar o no lo que 
ha informado la maestra. 

Nos pide un margen de error del 10%, es decir, un nivel de significancia del 10%. 

De inmediato deducimos que el nivel de confianza es del 90%. 

Empezamos obteniendo una muestra, digamos, de 20 alumnos del total. 

Revisados los valores encontramos que el promedio de notas, es 84, que es menor que 
90, aunque no sabemos si es significativamente menor. 

No basta que un valor sea diferente del que plantea la Ho. 

Por ejemplo, si hubieramos obtenido una Media muestral de 89.98: ^Diriamos que es 
diferente del nivel, 90, que deseamos testar? 

Es necesario contar con un referente objetivo. 
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Un referente que nos indique si hay realmente una diferencia, estadisticamente signifi- 
cativa, entre ambos valores 

Luego veremos que el nivel Sig. del SPSS es el que nos da el referente que buscamos 
para esta clase de problemas, pues es objetivo, no depende del juicio de nadie. 

Pero sigamos con nuestro ejercicio manual; supongamos que, usando los datos de la 
muestra, hemos estimado que su desviacion estandar es: a = 11 

Antes de ir a la tabla 9.2, ordenamos los datos 

H = 90 la media de la poblacion, sustentada por la profesora. 

X* = 84, que es la media de la muestra de los 20 elementos 
a= 11 

n = el numero de elementos en la muestra 

El director nos pidio que hicieramos un test de hipotesis con un 10% de error maximo, 
es decir, con un nivel de significancia del 10%. 

El nivel de significancia del 10% establece el nivel de confianza del 90%. 

Este nivel de confianza es el que aparece en las dos primeras filas de la tabla “t”. 

a = Nivel de Significancia: 10%. 

90% Nivel de Confianza 

Dado que el director no nos dijo si el creia que la nota fuera mayor o menor a 90, asu- 
mimos que el planteamiento correcto en este caso es: 

Ho: (i = 90 
Hj: n + 90 

Es decir, decidimos que vamos a testar un test dos colas, puesto que Hi, la hipotesis 
alternativa, plantea que la media puede ser mayor o menor que la hipotesis nula, Ho. 

Busquemos el nivel de significancia del 10%, entonces la columna que registra el 90% 
sera la apropiada, pues es el nivel de confianza pertinente. 

Dado que el problema que vamos a resolver es de dos colas, al 10% de significancia, 
entonces escogeremos la segunda fila del encabezamiento de la tabla. 

Los valores a lo largo de cada una de esas filas son los niveles de confianza para cada 
caso: una cola o dos colas (One Sided or Two Sided) 

Nosotros usaremos los estadisticos para dos colas, pues eso es lo que dice H] 
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En la primera columna de la tabla “t” se registra el numero de elementos de las mues- 
tras, hasta 30, que es el maximo numero que se opera con la tabla “t” 

En las filas de cada numero de elementos, estan los valores “t” en cada caso. 

El numero de elementos en la muestra que tenemos es 20. 

Pero la formula con que fue construida la tabla “t” disminuye 1 elemento a cada mues¬ 
tra, por lo tanto debemos operar con un valor de 19. 

Identificamos el valor 19 en la primera columna. 

Recorremos la fila donde esta el valor de 19 hasta encontrar el valor bajo la columna 
90%, que corresponde a “dos colas”. 

Recordemos que el director nos pidio una prueba de hipotesis con un nivel de error 
maximo (nivel de significancia) del 10%; 

Ese valor corresponde a dos colas, porque el de una cola para 19 elementos, esta en la 
misma columna pero en la primera fila con un nivel de confianza de 95%. 

Cada vez que tengamos problemas que plantean una hipotesis alternativa de dos colas, 
nos fijamos en la segunda fila del encabezamiento de la tabla. 

Recorremos la fila hasta ponernos en la columna 90%, en este caso, cuyo valor coincide 
con el de 90% de la segunda fila de la parte superior de la tabla. 

Ese 90% es el nivel de confianza, emergente del nivel de significancia del 10% que es- 
tamos usando; el valor es 1.729, que recibe el nombre de valor critico. 

Ya hemos logrado la primera parte de la tarea. 

La segunda parte de nuestra tarea es saber si el valor “t” que vamos a estimar esta por 
encima o por debajo de 1.729, que hemos identificado en la tabla. 

Comprobacion manual 

Si el resultado que vamos a obtener manualmente es menor que ese valor critico, acep- 
taremos la hipotesis nula, el promedio de las evaluaciones es, del 90%. 

Si el resultado es mayor, rechazaremos la hipotesis nula. 

(Cuando el resultado pasa de 3 la rechazamos automaticamente) 

Ahora bien, para testar si la diferencia de medias aritmeticas de la poblacion y de la 
muestra difieren significativamente o no, usamos la formula “t“ 


t = (X* - M )/a x 
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Es la version para pequenas muestras de la formula “z” que habiamos usado en la parte 
Primera del curso, para calcular los resultados, antes de usar el SPSS. 

Esta formula nos permite contrastarla la media que estimamos en la muestra (X* = 84) 
con la Media que nos da la Ho ([j = 90) 

Para eso es preciso estimar antes el estadistico c x 

En la igualdad 1.2 vimos que: o x = o/Vn 

Supusimos que habiamos estimado la desviacion estandar de la muestra: o = 11 

El error estandar de la Media sera; c x = 11/V20 = 11/4.47 = 2,46 

La “t” estimada, usando la formula, es t = (84 - 90)/2.46 = -6/2.46 = -2,44 

El signo es negativo porque que el promedio de la muestra, = 84, es menor que 90 
Pero el valor absoluto es mayor que el valor de la tabla. 

Esto es, 2.44 > 1.729 en valores absolutos 

En efecto, el nuevo valor absoluto de “t”, -2.44 es mayor que el valor de la tabla, el cual 
era de 1.729, por lo que rechazamos la hipotesis nula de la Directora 

Conclusion 

La media aritmetica de las calificaciones (de la poblacion) es menor a 90 

De esta manera, resolvimos manualmente un problema-tipo de prueba de hipotesis 
para una sola media cuando las muestras son pequenas. 

Es decir, cuando tienen menos de 30 observaciones. 

Complementamos estos conceptos con los siguientes. 

Error de Tipo I 

Lo cometemos cuando la hipotesis nula es cierta y sin embargo la rechazamos. 

Error de Tipo II 

Se comete cuando se acepta una hipotesis nula siendo que esta es falsa. 

Poder de una Prueba de Hipotesis 

Sobre la base de los tipos de error, se define el Poder de una Prueba de Hipotesis a la 
probabilidad de rechazar la hipotesis nula cuando es realmente falsa. 

Se refiere a la capacidad de un test para detectar adecuadamente las diferencias de 
dos medias, la propuesta por la Ho y la H] como estadisticamente significativas. 

Simbolos utilizados 

La media aritmetica de la Poblacion se representa por la letra griega: |j. 
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Para le Media Aritmetica de la Muestra, usaremos X* 


Con estos simbolos, podemos establecer que la Hipotesis Alternativa puede tener tres 
significados diferentes, de acuerdo con el criterio del investigador. 

Hj: X* t (. 1 ; la media muestral (X*) es diferente de la media de la poblacion (|a) 

Hi; X* > |i; la media muestral es mayor que la media de la poblacion. 

Hi: X* < n; la media muestral es menor que la media de la poblacion 

Tambien debemos tomar en cuenta un concepto muy importante: 

<7 = Desviacion estandar de la muestra 

Es la suma del cuadrado de las distancias entre cada observation de la muestra y su 
media, dividido entre el numero de elementos de la muestra menos 1. 

a = ^I(Xi - X*) 2 /(n -1) (9.1) 

En esta formula, el simbolo Xi es el valor de cada elemento de la muestra; X* es la me¬ 
dia aritmetica de la muestra y n es el numero de elementos en la muestra. 

El simbolo E indica la suma de todas las diferencias dentro del parentesis, las que pre- 
viamente han sido elevadas el cuadrado. 

Otro concepto que debe captarse muy bien es el siguiente: 

<t x = Error estandar de la Media = o/Vn (1.2) 

Es necesario notar que <t x , error estandar de la Media, en (1.2) es diferente a a, que es 
la desviacion estandar de la muestra, tal como queda establecido en (1.1) 

<r x = Error estandar de la Media 

Ahora vamos a definir este parametro. 

Si tenemos una poblacion de 5000 elementos y deseamos lograr una muestra de 50, 
escogeremos los cincuenta elementos de manera aleatoria. 

Luego, volvemos a escoger otra muestra, tambien de 50 elementos. 

Con toda seguridad que los valores de los elementos de la segunda muestra seran dife¬ 
rentes de los valores de la primera muestra, aunque el numero de elementos sigue 50. 

Asi, podemos sacar muchas muestras de 50 elementos, las que diferiran una de las 
otras; seria una coincidencia que sacaramos muestras con los mismos elementos 

Si tomamos el numero teorico de muestras de 50 elementos de una poblacion de 5000 
habra una Media Aritmetica del total de las muestras. 
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Por eso es que habra tambien una desviacion estandar de las distribuciones muestrales 

Esa desviacion estandar de las muestras con relacion a la Media del conjunto de todas 
ellas es que se llama: <r x = Error estandar de la Media 

La a nos muestra las diferencias de cada elemento de la muestra con relacion a la Me¬ 
dia Aritmetica de esa Muestra, en particular. 

En cambio, a x es la desviacion estandar de las medias de todas las muestras posibles 
de igual tamano que, teoricamente, se puede extraer de una poblacion. 

Con el SPSS 

El primer procedimiento del SPSS para testar las hipotesis con la distribution “t” se 
denomina procedimiento de una sola muestra. 

Un fabricante de automoviles de alto rendimiento produce frenos de disco que deben 
medir 322 milimetros de diametro. 

Los analistas toman muestras al azar de 16 discos realizados por cada una de ocho ma- 
quinas de produccion, para medir sus diametros. 

Vamos a utilizar el Test “T” para determinar si los diametros medios de los frenos en 
cada muestra difieren significativamente de los 322 milimetros requeridos. 

Una variable nominal, Numero de maquina, identifica la maquina de produccion usado 
para hacer el freno de disco. 

Los datos de cada maquina deben ser probados como una muestra separada, por ello 
vamos a dividir el archivo numerando cada una las maquinas que dieron las muestras 

El Procedimiento T test 

Con este procedimiento vamos a establecer la diferencia entre la Media en cada mues¬ 
tra y un valor previamente hipotetizado, en este cso, 322 mm 

Traemos a la pantalla del SPSS el archivo brakes.save 

La variable nominal, Numero de Maquina, identifica la maquina que ha producido los 
discos de freno, en cada una de las 8 maquinas productoras 

Debido a que los datos de cada maquina deben ser testados como muestras separadas, 
el archivo debe ser dividido en grupos, identificando cada maquina con un numero 

Para divider el archive: 

Menu —»Data —> Split File —> Compare Means 
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Con la fleche de direccion introducimos en la pantalla la variable Machine Number 
La Pantalla de Resultados del SPSS trae la Caja 9.1 


Caja 9.1 


^ Split Fite 


O Analyze all cases, do not create groups 
® Compare groups 
O Organize output Dy groups 


[+} 

® Sort the file by grouping vanables 
O File Is already sorted 

Current Status Analysis by groups is oft 


Groups Based on _ 

# Machine Number (machine) 


Disc Brake Diamete 




1 Paste 

Reset 

— 

Cancel 

Help 


Ahora vamos a comparar las medias de cada maquina con el valor de hipotesis 322 mm 

Menu —»Analyze —> Compare Means —> One-Sample T Test—> Disc Braque Diameter 
—► 322 en la casilla de Tested Value —► Options —► Continue —► OK. 


Tabla de Resultados 9.1 



Machine Number 

N 

Mean 

Std. Deviation 

Std. Error 

Mean 

1 

Disc Brake Diameter (mm) 

16 

321,998514 

,0111568 

,0027892 

2 

Disc Brake Diameter (mm) 

16 

322,014263 

,0106913 

,0026728 

3 

Disc Brake Diameter (mm) 

16 

321,998283 

,0104812 

,0026203 

4 

Disc Brake Diameter (mm) 

16 

321,995435 

,0069883 

,0017471 

5 

Disc Brake Diameter (mm) 

16 

322,004249 

,0092022 

,0023005 

6 

Disc Brake Diameter (mm) 

16 

322,002452 

,0086440 

,0021610 

7 

Disc Brake Diameter (mm) 

16 

322,006181 

,0093303 

,0023326 

8 

Disc Brake Diameter (mm) 

16 

321,996699 

,0077085 

,0019271 


Alii observamos las Medias del diametro de los discos de frenos producidos por las 8 
maquinas, de cada una de las cuales hemos traido muestras de 16 discos 
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Las diferentes Medias parecen diferir poco del valor de 322 mm requeridos 
Hay dos indicadores que es preciso analizar 

Std. Deviation 

Es el promedio de las desviaciones de la Media Aritmetica de cada elemento dentro de 
la muestra a la que nos referimos 

Por ejemplo, Std. Deviation para la maquina 1 es 0.0111568, eso quiere decir que los 
elementos de la maquina 1 difieren de la Media en un promedio de 0.011568 mm 

Std. Error Mean 

Es la desviacion promedio que hay entre el diametro de los discos producidos en cada 
maquina, con la Media de las 8 muestras en total. 

El valor Std.Error Mean de la primera maquina nos dice que en promedio, la Media 
Aritmetica de los discos que produce es 0.002782 mm distante de la Media Total 

De ahi el cambio de nombre, de desviacion estandar a error estandar en la notation de 
los indicadores 

Una vez que hemos dividido el archivo en 8 maquinas diferentes, de cada una de las 
cuales se ha tornado una muestra de 16 elementos vamos a testar los diametros. 

Menu —*■ Analyze —» Compare Means —> One-Sample T Test 

Introducimos Disc Braque Diameter en la pantalla de la derecha —►Options —>90% 
Confidence Intervale —»Exclude cases analysis by analysis —> Continue —> OK 

Analizaremos la Tabla de resultados, columna por columna, empezando por la diferen- 
cia de Medias (Mean Difference) de la production de cada maquina con los 322 mm 

Mean Difference 

Las maquinas 1, 3, 4 y 8 tienen una diferencia de la Media con el signo negativo 
Esto quiere decir que, en promedio, la media es un tanto menor a los 322 mm 

Lo contrario sucede con las maquinas en los que las diferencias de la Media tienen sig¬ 
no positivo con relation a los 322 mm. 

La Columna t 

A1 poner como valor de referencia 322 mm para el diametro exigido por las condicio- 
nes del problema, implicitamente nos plantea las siguientes hipotesis 

Ho = 322 
Hi ± 322 
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El valor “t”, cuyo significado analizamos en el anterior capitulo, nos nos da una pauta 
sobre los valores que estarian por encima o por debajo de Ho. 

Sig 2 Tailed 

Es la que nos hace saber si el valor “t” en cada caso es o no estadisticamente significa- 
tiva de la Ho; en este caso, con un nivel de significancia del 10% 

En el caso de la primera maquina, el valor “t”es -0.533 
A primera vista podemos ver que ese valor es muy bajo 

Para constatarlo, vemos que su valor Sig. 2 tailed es de 0.602 
Esto quiere decir que =.602 es mayor que el 10% requerido 

Por lo tanto, rechazamos la hipotesis nula de que no hay diferencia significativa entre el 
valor 322 y la media de la maquina 1. 


Tabla de Resultados 


One-Sample Test 

Machine Number 

Test Value = 322 



t 

df 

Sig. 

Mean 

95% Confidence 





(2- 

Differ¬ 

Interval of the Dif¬ 





tailed) 

ence 

ference 







Lower 

Upper 

1 

Disc Brake Diameter (mm) 

-,533 

15 

,602 

-,0015 

-,0074 

,0044 

2 

Disc Brake Diameter (mm) 

5,336 

15 

,000 

,0145 

,0085 

,0199 

3 

Disc Brake Diameter (mm) 

-,655 

15 

,522 

-,0017 

-,0073 

,0038 

4 

Disc Brake Diameter (mm) 

-2,61 

15 

,020 

-,0046 

-,0089 

-,0008 

5 

Disc Brake Diameter (mm) 

1,847 

15 

,085 

,0042 

-,0006 

,0091 

6 

Disc Brake Diameter (mm) 

1,134 

15 

,274 

,0024 

-,0021 

,0070 

7 

Disc Brake Diameter (mm) 

2,650 

15 

,018 

,0062 

,0012 

,0111 

8 

Disc Brake Diameter (mm) 

-1,713 

15 

,107 

-,0033 

-,0074 

,0008 


En cambio, la maquina 2 nos da un valor “t” de 5.336 y un Sig. = 0.000 
Esto quiere decir que el valor Sig es menor que el 10% hemos determinado. 

Por lo tanto, rechazamos la Ho y aceptamos la HI en sentido de que la maquina 2 esta 
produciendo discos de freno cuyo diametro es mayor que 322 mm. 

Los Intervalos de Confianza 

Los Intervalos de Confianza al 90% proveen los limites entre los que se encuentra la 
verdadera diferencia en el 90% de todas las muestras. 
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Los Intervalos de Confianza tienen un valor de 0.0, cuando hay perfecta coincidencia 
entre la media propuesta (322 mm) y las que hay en cada muestra. 

Si los dos limites son positivos, deduciremos que las maquinas de donde provienen las 
muestras, estan produciendo frenos cuyo diametro esta por encima de 322 mm. 

Eso es lo que sucede con las maquinas 2, 5 y 7 

Por lo tanto rechazamos la Hipotesis nula en cada una de esas tres maquinas. 

Lo contrario sucede con la maquina 4, pues ambos limites de su Intervalo de Confianza 
para la diferencia de medias son negativos. 

Esto quiere decir, que hay evidencia de que la maquina 4 esta produciendo frenos cu- 
yos diametros son menores que 322 mm; tambien rechazamos la Hipotesis nula 

En las restantes cuatro maquinas no hay razones para rechazar la Hipotesis nula. 

Por ello, aceptamos que producen diametros consecuentes con los 322 mm. 

Observamos, de paso, que los valores Sig para las maquinas 2, 4, 5 y 7 son menores al 
10% del nivel de significancia que se propuso. 

En las maquinas para las que aceptamos la Hipotesis nula, los valores Sig son mayores 
que el 10% propuesto de nivel de significancia. 

El t-test de una muestra puede ser usado cada vez que las medias de la muestra deban 
ser comparadas con algun valor propuesto, dado por la Ho. 

En todo caso, se asume que la distribution de la poblacion de la cual se deriva la mues¬ 
tra es razonablemente cercana a la normal. 

Se debe tomar nota de la asimetria y de los valores extremos. 

En el proximo capitulo nos referiremos a otros tipos de “t test”. 
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10 

”PAREABO 


Concepto 

Uno de los disenos mas conocidos es el denominado “pre-post”, el que consiste en 
comparar dos medidas del mismo sujeto antes y despues de un tratamiento o estimulo 

Si el tratamiento no tiene los efectos previstos, la diferencia entre las medias de la 
muestra antes y despues del tratamiento sera proxima a 0; se aceptara la hipotesis nula 

Por el otro lado, si el tratamiento es efectivo la diferencia de las medias diferira signifi- 
cativamente de 0; en ese caso, rechazaremos la hipotesis nula. 

El T Test para muestras pareadas se usa para testar la hipotesis esta clase de hipotesis 

Es decir, testar si hay o no diferencia significativa entre dos variables sobre datos 
emergentes de dos medidas tomadas sobre el mismo grupo antes y despues. 

Ejercicio 

Un medico evalua una nueva dieta para sus pacientes con un historial familir sobre 
enfermedades del corazon. 

Para testar la eficacia de la dieta, tiene la participation de 16 pacientes que seguiran la 
dieta por seis meses. 

Los pesos y los trigliceridos son medidos antes y despues de la dieta 

El medico desea conocer si esas medidas han cambiado luego de la dieta cumplida. 

Uso del SPSS 

Los datos respectivos estan en el archivo dietstudy.sav 

Usaremos el Test T para muestras pareadas y asi determinar si hay diferencias signifi- 
cativas entre los pesos y los trigliceridos antes y despues de la dieta. 

Analyze —* Compare Means —» Paired-Samples T Test —> Triglyceride y Final Triglyce¬ 
ride como el primer par de variables 

—>Weight y Final Weight como el Segundo par —> OK. 
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La Pantalla de Resultados registra tres tablas 
Tomaremos la primera de ellas y luego, las demas 

Tabla de Resultados 10.1 


Paired Samples Statistics 



Mean 

N 

Std. Devia¬ 
tion 

Std. Error 

Mean 

Pair 

1 

Triglyceride 

138,44 

16 

29,040 

7,260 

Final triglyceride 

124,38 

16 

29,412 

7,353 

Pair 

2 

Weight 

198,38 

16 

33,472 

8,368 

Final weight 

190,31 

16 

33,508 

8,377 


Los promedios de los niveles de trigliceridos antes y despues de la dieta, muestran una 
diferencia de entre 14 y 15 puntos durante los seis meses que duro la dieta. 

Por otra parte, los promedios de los pesos, antes y despues de la dieta, tienen una dife¬ 
rencia desde 198.38 a 190.31 libras, respectivamente. 

Las desviaciones estandar para las medias antes y despues de la dieta muestran que 
hubo mayor variabilidad entre la perdida de peso que entre los niveles de trigliceridos 

La Correlation de Pearson 

Es la que aparece en la Tabla de Resultados 

Tabla de Resultados 10.2 
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La Correlacion de Pearson determina el grado de asociacion que hay entre dos varia¬ 
bles; es simetrica, pues el grado de correlacion entre X y Y es igual al de Y y X 

Por ello, no pretende establecer causalidad entre las variables que toma. 

En la tabla 10.2 la Correlacion de Pearson es -0.286 y su nivel de Sig = 0.283 > 0.10 

Sobre esos valores podemos decir, con un nivel de significancia del 10%, que la dife- 
rencia entre los trigliceridos antes y despues de la dieta no es significativa 

Sin embargo, a niveles individuals, los datos son inconsistentes, pues algunos rebaja- 
ron sus niveles y otros los mantuvieron. 

Por el otro lado, la Correlacion de Pearson entre las medias del peso antes y despues 
es 0.996, que se acerca a la correlacion perfecta. 

Eso se comprueba con su valor Sig = 0.000. 

De esos valores deducimos que no tenemos razones para aceptar la Ho y afirmar que 
si, existe una diferencia significativa entre los pesos antes y despues de la dieta. 

En la siguiente tabla la columna Mean despliega las diferencias entre las medias vigentes 
entre trigliceridos y peso antes y despues de la dieta. 

La columna 3, desviacion la estandar para los promedios respectivos. 

La columna (4) Std. Error Mean, proporciona la variabilidad esperada de las repetidas 
muestras tomadas con 16 elementos c/u y la Media total de todas las medias muestrales 

Tabla de Resultados 10.3 


Paired Samples Test 


Paired Differences Sig. 



Mean 

Std. 

Deviation 

Std. Error 

Mean 

95% Confidence 

Interval of the Dif¬ 
ference 

Lower Upper 

t 

df 

2- 

tailed 

Pair 

1 

Triglyceride — 

Final triglyceride 

14,06 

46,875 

11,72 

-10,91 

39,04 

1,20 

15 

,249 

Pair 

2 

Weight - 

Final weight 

8,06 

2,886 

,72 

6,525 

9,60 

11,17 

15 

,000 
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Lo dijimos antes: una poblacion permite extraer muchas muestras similares, para las 
que se espera un error estandar, que es la que se muestra en la columna 4. 

El Intervalo de Confianza del 95% de la diferencia provee los limites estimados entre 
los que se encuentra la diferencia verdadera en el 95% de las muestras aleatorias 

El Estadistico “t” 

Se obtiene dividiendo la diferencia de las medias entre sus errores estandar 
Ejemplo, en el caso de los trigliceridos, dividimos 14.06/11.71 = 1.20. 

El Sig = 0.249 para los trigliceridos, mayor que 0.05, indica que no hay una diferencia 
significativa entre los promedios antes y despues de la dieta. 

Esto es, con relacion a los trigliceridos, la dieta no tiene efecto alguno. 

Pero, el valor Sig =0.000 para el peso si muestra que hay una diferencia significativa 
entre los promedios del peso antes y despues de la dieta. 

La dieta es eficaz en la reduccion del peso, pero no en la reduccion de trigliceridos. 

Resumen 

El test “t” para muestras pareadas es apropiadO para relacionar 2 promedios muestra- 
les que deben ser comparados entre si 

Pero, se asume que los datos tienen una distribution cercana a la normal. 

Con relacion al skewness, antes de empezar un test “t” es adecuado examinar el histo- 
grama para las diferencias en las variables. 

Las variables con valores extremos o outliers deben ser cuidadosamente comprobados 
usando el procedimiento boxplots. 

Hay procedimiento que se pueden usar para testar el supuesto de normalidad, espe- 
cialmente en el procedimiento Esploratory Data Analysis. 

Test pareados para muestras independientes 

Testa la significancia de las diferencias entre las medias de dos muestras independien¬ 
tes; tambien nos provee de las estadisticas descriptivas para cada variable. 

Por otro lado, nos proporciona un test de igualdad de varianzas y un coeficiente de in¬ 
tervalo al 95%, para la diferencia entre las medias de las variables. 

Determinando los grupos 

Generalmente, los grupos de dos muestras para un test “T” son fijos y las variables de 
grupos tienen un valor para cada grupo. 
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Pero hay ocasiones en las que se puede asignar estos valores para uno o dos grupos, 
sobre la base de una variable de escala. 

Por ejemplo, consideremos las notas de los estudiantes en gramatica y matematicas. 

Podriamos considerar la necesidad de realizar un test “T” sobre las calificaciones en 
gramatica, dividiendolos en dos grupos: los que tienen una calificacion sobre el pro- 
medio en matematicas y los que estan por debajo 

Con el procedimiento del test “T” para muestras independientes lo unico que necesi- 
tamos es ese “punto de corte” que divide a los dos grupos que seran testados. 

La bondad de este metodo es que el punto de corte puede ser modificado sin recurrir a 
crear otros grupos de variable. 

Ejercicio 10.1 

Un analista de una tienda de departamentos quiere evaluar los efectos de una carta de 
credito provisional; para ello selecciona, aleatoriamente, a 500 clientes 

La mitad de los clientes seleccionados reciben la carta de credito con la reduccion de 
la tasa de interes por los proximos 3 meses; la otra mitad recibe la tarjeta normal. 

Los datos estan en el archivo creditpromo.sav, usaremos el test “T” para dos muestras 
independientes y comparar los gastos de cada grupo 

Menu —*■ Analyze —» Compare Means —> Independent —> spent during promotional period 
(como la variable de test) —> Type of mail insert received (como la variable de grupo) —> 
Define groups —> escribimos 0 en la casilla del grupo 1 y escribimos 1 en la casilla de 
valor del grupo 2 —*■ Continue. —» OK. 

Tabla de Resultados 10.4 


Group Statistics 


Type of mail insert 

received 

N 

Mean 

Std. 

Devia¬ 

tion 

Std. Error 

Mean 

$ spent during 

promotional period 

Standard 

250 

1566,39 

346,67 

21,92 

New Promotion 

250 

1637,50 

356,703 

22,56 
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La Tabla de resultados anterior, consigna las medias de ambas muestras, como tambien 
sus desviaciones estandar y los errores estandar de las media. 

Un primer vistazo a esa tabla, nos muestra que hay una diferencia de -71,11 entre la 
Media aritmetica de las personas no tienen la promotion y las que si tienen 

Ahora nos corresponde establecer si esa diferencia entre las Medias es significativa. 
Para ello, analizamos la segunda tabla en la Pantalla de Resultados 

La segunda tabla de la pantalla de resultados nos trae indicadores nuevos para noso- 
tros; pero es muy extensa para trasladarla hasta aqui 

Antes de comparar las medias de dos muestras, es necesario saber si las varianzas en 
la distribution de las medias son iguales o son diferentes 

Para averiguarlo, vamos a recurrir al Test de Levene 

Dado que la pantalla es muy extensa, nos limitaremos a trasladar el segmento de la ta¬ 
bla grande que es de nuestro interes 


Para ello, pivotearemos la tabla 

Hacemos dos clicks seguidos en cualquier parte de la tabla 
Aparecera una nueva pantalla con un nuevo menu: Pivote —> pivote trays 


La pantalla de resultados nos da la siguiente bandeja 


Bandeja 10.1 


JTj Pivoting Tr*yi 


h 



En la bandeja verde —> click en Traspose Rows and Columns —► cerrar 
En la Pantalla de datos aparece una nueva tabla, esta vez resumida. 
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El Indicador F 

En este caso, el Test F testa la hipotesis nula de que dos poblaciones con distribuciones 
normales tienen la misma varianza; luego veremos que tiene otros usos tambien. 

Test de Levene 

Nos ayuda a definir cual de las dos hipotesis que vamos a plantear es valedera 

Ho Las dos muestras tienen varianzas diferentes, una de la otra 
Hi Ambas muestras tienen la misma varianza 

Si el nivel de Sig es mayor que el 5%, aceptamos la hipotesis alternativa 
Esto es, aceptamos que ambas muestras tienen la misma varianza 


Tabla de Resultados 10.5 



$ spent during promotional 

period 

Equal vari¬ 
ances as¬ 
sumed 

Equal vari¬ 
ances not 

assumed 

Levene's Test for 

F 

1,190 


Equality of Variances 

Sig. 

,276 


t-test for Equality 

t 

-2,260 

-2,260 

of Means 

df 

498 

497,595 


Sig. (2-tailed) 

,024 

,024 


Mean Difference 

-71,11095 

-71,11095 


Std. Error Difference 

31,45914 

31,45914 


95% Confidence Interval 

Lower 

-132,91995 

-132,92007 


of the Difference 

Upper 

-9,30196 

-9,30183 


El valor F es 1.19 y su nivel Sig = 0.276 

Dado que el nivel Sig es mayor que el 5%, aceptamos la hipotesis alternativa 

La hipotesis de la igualdad de varianzas entre ambas muestras se mantiene 
Por lo que desechamos la informacion que nos proporciona la ultima columna 

Luego de los estadisticos sobre la igualdad de varianzas, tenemos un test “t” 

El Test “t” para la igualdad de las medias 

Las hipotesis que deseamos testar en este caso es si las medias aritmeticas de las dos 
muestras son iguales entre si: 

Ho = Las medias aritmeticas de las muestras son iguales entre si 


134 

















Hi = Las medias aritmeticas de las muestras no son iguales entre si 
El estadistico “t” es: -2.26 

El Sig de “t” es = 0.024 que es menor que el 5% que estamos usando 
Este valor rechaza la hipotesis nula. 

Esto es, las medias de ambas muestras no son iguales entre si. 

De todo esto, deducimos que la diferencia de -71,11$ es significativa entre el gasto de 
quienes tienen la carta de credito promocional y los que no. 

El SPSS obtiene la Diferencia de Medias substrayendo la media de la muestra del grupo 
2 (el grupo promocional) de la media de la muestra del grupo 1 (no promocional) 

Por eso es que el valor de -71,11 es negativo 

La diferencia, en valore absolutos, de $71.11 dolares que incrementa el promedio del 
gasto de los beneficiarios con las tarjetas de credito no se debe al azar. 

Se deberia considerar la posibilidad de extender la promotion a todos los clientes. 

El Coeficiente de Intervalo de la diferencia entre ambas medias, al 95%, proporciona 
los limites inferior y superior entre los que se encuentra la verdadera media. 

De todas las muestras de 500 clientes que pueden lograrse de la poblacion, hay el 95% 
de posibilidades que la media verdadera se encuentre entre -132,91 y -9,3019. 

Usando un punto de corte para definir las muestras 

Hay una compania que provee celulares y quiere estimar la propension a abandonar 
los servicios de la firma, por parte de sus clientes. 

Como referencia usa el punto de corte = 50 minutos 
Los datos estan el archivo celular.save 

Usaremos el test “t” para muestras independientes y determinar si estos grupos tienen 
una diferencia significativa en el tiempo de uso de sus celulares, medido en minutos 

Analyze > Compare Means > Independent —> Avg monthly minutes como la variable 
a testar —»Select Propensity to leave (como la variable de grupo) —> Define Croups 
—* Cut point —> 50 en la casilla de cut point —> Continue —> OK. 

La tabla ... nos muestra que el numero de clientes por encima del umbral de quienes 
quieren abandonar el servicio de celulares de la compania es 50. 

El total de clientes cuyo promedio esta por debajo del umbral para dejar el servicio es 
de 200 y el tiempo promedio de uso mensual de sus celulares es menor que 50 minutos 
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La Media del uso mensual de celulares de los que estan por encima del umbral de 50 
minutos, es 78 minutos mayor que la Media de quienes estan por debajo del umbral 

Tabla de Resultados 10.6 


Group Statistics 


Propensity to 

leave 

N 

Mean 

Std. Devia¬ 
tion 

Std. Error 

Mean 

Avg monthly 

minutes 

>50,00 

50 

224,79 

37,73202 

5,33611 

< 50,00 

200 

146,53 

33,64859 

2,37931 


La segunda tabla nos mostrara si las diferencias en las Medias de ambas opciones son 
iguales entre si o no. 

Pero, ya lo sabemos, primero debemos recurrir al test de Levene para enterarnos si 
podemos asumir la igualdad de varianzas o no entre ambos conjuntos de datos 

Sabemos que si no hay igualdad de varianzas, no sera posible testar las diferencias 
La tabla que necesitamos es muy extensa para traerla 

Por lo que utilizaremos otra vez la funcion Pivote: 

—>doble ckick en cualquier lugar dentro de la tabla —> Pivot en la nueva tabla 
Aparece la bandeja; —► pivot —> trasspase rows anda coluns —> cerrar 

Tabla de Resultados 10.7 


Independent Samples Test 




Avg monthly minutes 




Equal vari¬ 

Equal vari¬ 




ances as¬ 

ances not 




sumed 

assumed 

Levene's Test for Equal- 

F 

,966 


ity of Variances 

Sig. 

,327 


t-test for Equality of 

t 

14,349 

13,394 

Means 

df 

248 

69,742 


Sig. (2-tailed) 

,000 

,000 


Mean Difference 

78,25625 

78,25625 


Std. Error Difference 

5,45394 

5,84254 


95% Confidence Interval 

Lower 

67,51430 

66,60292 


of the Difference 

Upper 

88,99819 

89,90958 
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El Test de Levene para contrastar la igualdad de varianzas tiene un valor F = 0.966 
El nivel Sig es 0,327, por lo que aceptamos la igualdad de varianzas 

El valor “t” para testar la igualdad de las Medias es 14,349 y su nivel Sig = 0.000 
Por lo tanto, rechazamos la hipotesis de que las medias son iguales entre si. 

La diferencia en los tiempos del uso del celular es significativa 

El “t” test proporciona una firme evidencia de que hay diferencia entre los minutos de 
uso de los celulares entre los que son mas propensos a cambiar la firma que les provee 
el servicio y los que son menos propensos a cambiarla 

Muestra que los que piensan abandonar el servicio tienen un promedio de uso mensual 
de 78 minutos mas que el promedio de los que no piensan abandonarlo. 

El Intervalo de Confianza tiene un valor minimo de 67,51 
Un valor maximo de 88.99 

El intervalo de confianza sugiere que la diferencia real entre ambos grupos no sera 
menor de 67 minutos, a pesar de que ese valor es superior al umbral de 50 minutos 

La compania debe tomar medidas para retener este grupo 

Resumen 

El test “t” es util para comparar las medias de dos muestras independientes. 

A veces es necesario establecer un punto de corte entre los dos grupos. 

Como todos los tests “t” de muestras independientes, se asume que la media de cada 
muestra proviene de una poblacion distribucion sea cercana a la normal. 

Esto se refiere, especialmente, al estadistico skewness 

Por otra parte, las variables de valores extremos y outliers deben ser comprobadas; 
para ello contamos con el estadistico boxplot. 

Hay otros procedimientos alternatives, bajo el supuesto de distribucion normal en Ex¬ 
ploratory Data Analysis. 

Si se tiene que testar mas de dos grupos de variables, acudimos al procedimiento One- 
Way ANOVA que es el tema del proximo capitulo. 
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11 

ONE WAY ANOVA 


ANOVA deriva de las iniciales en ingles “Analysis of Variance” 

Conceptos 

El Test “t” es muy util para muestras pequenas y para establecer la diferencia entre las 
Medias Aritmeticas, pero solamente se refiere a la comparacion de dos variables 

ANOVA amplia el rango del “t” test para determinar si las medias, no solo de dos gru- 
pos, sino de varios son o no iguales. 

Tambien ofrece niveles de grupo para la variable dependiente, un test sobre igualdad 
de varianzas, una grafica de medias de grupos. 

Por otra parte, tests de rangos, comparaciones multiples de grupos pareados y contras- 
tes para describir la naturaleza de las diferencias de grupo. 

Test de Varianzas 

Un importante paso en el analisis de varianza es el test de la validez de los supuestos; 
por ejemplo, ANOVA supone que la varianza de grupos es equivalente. 

Si deseamos analizar la variabilidad de una variable numerica debido al compor- 
tamiento de otra, pero de tipo categorica, esta ultima recibe el nombre factor. 

En este caso, estaremos hablando del analisis de la varianza para un solo factor, aunque 
este factor, a pesar de ser solo uno, puede tener varios niveles. 

Un ejemplo seria el analisis de los promedios del ingreso de dos grupos inde- 
pendientes de funcionarios, de acuerdo con el grado de educacion que tienen. 

La variable dependiente, cuantitativa, sera el Ingreso. 

El grado de educacion sera el factor. 

Primaria, secundaria, universitario y post grado seran niveles del factor educacion 

ANOVA compara las medias de ambos grupos para establecer si hay o no diferencia y, 
en su caso, el grado de diferencia. 
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Estos niveles pueden ser fijos, tales como los que acabamos de describir. 

Aleatorios; v.g, si se escoge al azar las empresas que participaran en el estudio. 

Si los resultados proporcionados por las muestras no tienen errores sistematicos, sus 
medias no seran significativamente diferentes entre si. 

La dispersion que pudiera notarse se debera a errores aleatorios que representaran la 
dispersion de los elementos de una muestra. 

Fuentes de variation 

Habra dos fuentes de variacion cuando comparamos dos muestras: 

La que se debe a la diferencia de los estadisticos que separan ambas medias. 

La que se debe a los errores dentro de cada muestra. 

La Suma Total de Cuadrados 

SS T : Suma total de estas variaciones 

Se denomina Suma Total de Cuadrados. 

Esta Suma Total se descompone en dos sumas de cuadrados. 

ST t : Suma de las diferencias al cuadrado de cada resultado individual con relacion a la 
Media de todos los resultados; representa la variacion total de los datos. 

SS r ; Mide las desviaciones entre los resultados individuales de cada muestra con rela¬ 
cion a su propia Media; es una medida de dispersion dentro de cada muestra. 

SS E ; Mide las diferencias entre los resultados medios de cada muestra y el resultado 
medio global de todas las muestras; de este modo se tiene: 

ST t = SS, + SS E (11.1) 

Si se divide SS! por los correspondientes grados de libertad se obtiene la Media Cua- 
dratica (Mean Square) dentro de cada muestra (MS^ 

De esta manera, ST t = SS r + SS E 

jPor que “Diferencia de cuadrados”? 

Tomemos la siguiente serie de numeros: 1, 2, 3, 4, 5 
La Media aritmetica de esa serie sera: (1 + 2 + 3 + 4 + 5)/5 = 3 

Ahora bien, tomemos la suma de cada elemento individual con relacion a la media: 

(1 - 3), (2 - 3), (3 - 3), (4 - 3), (5 - 3) y las sumemos, -2 + (-1) + 0 + 1 + 2 = 0 

El resultado es cero, debido a que los valores negativos de las diferencias se contrape- 
san con los resultados positivos, tal como lo vimos en capitulo anterior. 
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Para evitar que eso suceda, se suma los cuadrados de las diferencias, puesto que los 
cuadrados de numeros negativos o positivos siempre seran positivos. 

De esta manera tendremos: 

(1 -3) 2 + (2 - 3) 2 + (3 - 3) 2 + (4-3) 2 + (5 - 3) 2 = 1 + 1+ 0 + 1 + 4 = 7 

Este resultado es la Suma de Cuadrados, que se usa para medir las diferencias. 

Ahora nos enfocaremos en el modelo ANTOVA de una sola via (One way ANOVA) 

One Way of Variance (ANOVA) 

One Way ANOVA nos permite testar la hipotesis de que las varianzas de dos o mas 
grupos son o no son significativamente diferentes unas de las otras. 

Ejemplo 

Un gerente de ventas quiere determinar el numero optimo de dias de entrenamiento 
para algunos empleados nuevos. 

Hasta el momento tiene los datos del desempeno de tres grupos: 

Empleados con uno, dos y tres dias de entrenamiento, respectivamente. 

Para empezar el analisis de esos datos traemos el archivo salesperformance.sav 
Antes de correr el ANOVA es necesario graficar las medias y los errores tipicos. 

Menu principal —» Graphics —> Chart Builder —> galena —> 

En la parte inferior aparecen varias opciones de graficas 

Con el mouse apuntamos a cada una hasta que identifiquemos el icono Simple Error Bar 

Con el mouse, arrastramos el icono a la pantalla blanca 

Con el mouse tambien arrastramos Score on training exam en el eje de las “Y” 

Con el boton derecho click Sales training group y elegimos Nominal 
Con el mouse arrastramos Sales training group al eje de las X’s 

Con el mouse, arrastrar el icono Simple Error Bar en la pantalla blanca. 

Luego arrastramos hasta el eje de las Y la variable Score on training exam. 

Con el boton derecho —► Sales training groups —► Nominal 

Arrastrar la variable Sales training groups al eje de lasX —> Click element properties 

Barra de Error —► Standard Error —► Apply —> OK en el chart builder 

La grafica 11.1 nos muestra que el desempeno de los funcionarios aumenta a medida 
que se incrementa el numero de dias de entrenamiento. 
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Pero, al mismo tiempo, la variation en el desempeno se reduce, es decir, al parecer las 
varianzas en cada grupo no son iguales 

Diagrama 11.1 



Sabemos que ANOVA asume igualdad de varianzas en todos los grupos, pero ese su- 
puesto puede que no se cumpla para este caso. 

Es necesario testar el supuesto de igualdad de varianzas 
Analyse —» Compare Means —*■ One-Way ANOVA 

Score on training como la variable dependiente y Sales training (variable factor) 
—> Options —» Click Homogeneity of variance test —> Continue —> OK 

Tabla de Resultados 11.1 


Descriptives 

Score on training exam 


N 

Mean 

Std. 

Devi at 

via- 

tion 

Std. Error 

95% Confidence Interval for 

Mean 

Minimum 

Maximum 

Lower Bound 

Upper 

Bound 

1 

20 

63,57 

13,51 

3,0206 

57,2576 

69,9020 

32,68 

86,66 

2 

20 

73,56 

10,61 

2,3722 

68,6025 

78,5328 

47,56 

89,65 

3 

20 

79,27 

4,46 

,9855 

77,2165 

81,3420 

71,77 

89,69 

Total 

60 

72,14 

12,00 

1,5496 

69,0415 

75,2430 

32,68 

89,69 
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Las desviaciones estandar y los errores estandar decrecen a medida que los cursos tie- 
nen una duracion mayor en dias 

Esto nos confirms que a medida que el tiempo de entrenamiento aumenta, la variation 
en el desempeno de los participantes disminuye. 

La segunda se refiere a la homogeneidad de la varianza en los examenes despues de 
los dias de entrenamiento en cada caso 

La prueba de Levene tiene un valor de 4,6370 y un nivel Sig 0.014 que es menor que el 
5% de error que acordado, por lo tanto, rechazamos la hipotesis de varianzas iguales. 

Tabla de Resultados 11.2 


Test of Homogeneity of Variances 

Score on training exam 



Levene Statistic 

df 1 

df2 

Sig. 

4,6370 

2 

57 

,014 


Heterocedasticidad 

Nos indica que las diferentes muestras a ser comparadas tienen varianzas diferentes. 

Algunos autores estiman que ese es un gran impedimento para comparar medias y 
desviaciones estandar. 

Implicaciones de la no igualdad de varianzas 

N. George Mankiw, en su libro “ A Quick Refresher Course in Macroeconomics, Journal of 
Economics Literature noviembre 1990”, afirma al respecto: 

“La heterocedasticidad jamas ha sido una razon para desechar 
un modelo que de otra forma seria adecuado”. 

Por su parte, John Fox en su obra “Aplied Regression Analysis”, pg. 306 afirma: 

"... una varianza de error desigual vale la pena corregirlo 
solo cuando elproblema resulta severo.” 

Supongamos que se nos presentaran muestras con diferentes varianzas. 

En ese caso, ceptariamos las dos opiniones citadas y decidiriamos que la diferencia de 
las varianzas no es algo que nos impida seguir analizando los datos respectivos. 
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Otra aplicacion de One Way ANOVA 

Una firma electronica desarrolla un nuevo reproductor de DVD; se lanzo un prototipo y 
se recolectaron los datos de dos grupos divididos de acuerdo con la edad. 

ANOVA puede estableces si los clientes de grupos de edades distintas reaccionaron de 
maneras diferentes ante el nuevo diseno; traemos el archivo dvdplayer.sav 

Comparar Medias —* One Way ANOVA —► Total DVD Assessment, (dependiente) 

—► Age group (Factor) —► Opciones —> Prueba de homogeneidad de las muestras 
—*■ Grafico de las Medias —> Continuar —> OK. 

La primera tabla es el test de Levene sobre homogeneidad 


Tabla de Resultados 11.3 


Test of Homogeneity of Variances 

Total DVD assessment 


Levene Statistic 

dfl 

df2 

Sig. 

1,292 

5 

62 

,279 


El nivel Sig del test Levene es 0.279 que es mayor que 0.05; por lo tanto, aceptamos la 
hipotesis nula: en este caso las varianzas son iguales. Vamos a la tabla 11.5. 

La segunda tabla nos trae los indicadores de ANOVA 


Tabla de Resultados 11.4 


ANOVA 

Total DVD assessment 


Sum of Squares 

df 

Mean Square 

F 

Sig. 

Between Groups 

1294,481 

5 

258,896 

6,993 

,000 

Within Groups 

2295,532 

62 

37,025 



Total 

3590,013 

67 





El Estadistico F 

Ahora concretamos el analisis que hicimos anteriormente sobre el estadistico F. 

La Prueba F contrasta la Hipotesis nula de que las distribuciones normales de las pobla- 
ciones tienen la misma varianza. 


El nivel de Sig del test F es 0,000, por lo que rechazamos la hipotesis de que las medias 
entre los grupos por edades son iguales. 
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La suma Total (ST t en nuestra simbologia) suma las diferencias al cuadrado de cada 
resultado individual con relacion a la Media de todos los resultados. 

Representa la variacion total de los datos. 

La Suma de Cuadrados Intra grupos mide las diferencias entre los valores de cada 
muestra con relacion a su propia Media. 

Es una medida de dispersion dentro de cada muestra 
Es el error en ANOVA. 

La Suma de Cuadrados Inter grupos es la Media de las diferencias entre los elementos 
de las muestras con relacion a la Media general. 

En realidad la Suma de Cuadrados Inter grupos es la que importa para los analisis. 

En el cuadro ANOVA vemos que la Suma de Cuadrados Inter Grupo es 1294,48. 

Si se divide la Suma de cuadrados Inter-grupos entre los correspondientes grados de 
libertad, se obtiene la Media Cuadratica en cada caso (Mean Square) 

En este caso, la Media Cuadratica es 258,896. 

La Media Cuadratica para la suma de cuadrados Intra-grupos tambien resulta de la di¬ 
vision de la Suma de Cuadrados Intra-grupos entre sus grados de libertad. 

La Media Cuadratica correspondiente es 37.025. 

La Suma Total de Cuadrados es 1294,481 + 2295,532 = 3590.013 

Los grados de libertad para el total es igual al numero de todos los elementos que fue- 
ron tornados en cuenta en las muestras menos 1; en nuestro caso es 67. 

Los grados de libertad para la Suma de cuadrados inter-grupos es igual a K - 1 donde K 
es el numero de muestras; en nuestro caso, 5. 

Los grados de libertad para la Suma de cuadrados Intra-grupos es igual a N - K = 62. 
Ahora nos toca interpretar la Prueba F. 

El valor de F se calcula dividiendo la Media cuadratica Inter-grupos sentre la Media 
cuadratica intra grupos 

Esto es, la variabilidad explicada sobre la variabilidad no explicada 

258,8960/37,0250 = 6,9930 

El resultado es el mismo que tiene el valor del estadistico F en la tabla anterior.... 
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Sobre este resultado es posible afirmar que los clientes de grupos de edades distintas 
reaccionaron de maneras diferentes ante el nuevo diseno. 

Ya sabemos que las actitudes de las personas en los diferentes grupos, no son iguales 
Ahora aprenderemos acerca de la estructura de las diferencias 

Contrastes entre las medias de cada grupo 

Una vez que sabemos que hay diferencia entre los grupos de entrenamiento, deseamos 
conocer la estructura de las diferencias. 

Para ello recurrimos a la grafica de las Medias entre los grupos. 

En la grafic... vemos que los participantes entre 35 y 54 anos de edad son los que 
aceptaron con mayor receptividad el nuevo reproductor de DVD 


Grafica 11.1 



Comparaciones de pares multiples 

El metodo que vamos a utilizar es conocido como comparaciones de pares de medias 
aritmeticas cuando los grupos son multiples. 

De este modo, ANOVA nos ayuda a comparar las medias de un grupo con la media de 
cualquier otro grupo, ciuando los grpos son mas de dos. 

Ejemplo 

Un gerente de ventas ha analizado los datos referidos a un programa de actualization 
usando el procedimiento One-Way ANOV. 

Aunque se encontraron diferencias significativas de grupo, no se cuenta con una hip 6- 
tesis previa acerca de la manera como difieren los grupos. 
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Despues de terminadas las clases de actualizacion todos los participantes dieron un 
examen para establecer el grado de aprovechamiento. 

De este modo, decide comparar cada grupo con otro, individualmente, sobre la base 
de los datos que se archivaron en salesperformance.sav. 

Empezamos el analisis pertinente. 

Analyze > Compare Means > One-Way ANOVA —>Score on training exam (como variable 
dependiente) —► Sales training group (Como variable factor) —> Post Hoc. 

La Caja de Post Hoc se divide en dos partes; la primera asume grupos con varianzas igua- 
les; la segunda no asume igualdad de varianzas 

Sesupone que el Test Leven ha establecido que las varianzas de los diferentes grupos son 
dignificativamente diferentes, vamos a escoger esa opcion que esta en la parte inferior 

Hacemos click en elboton Tamhane’s test —► Continue —► OK 

_ Tabla de Resultados 11.5 _ 

Multiple Comparisons 


Dependent Variable: Score on training exam 
Tamhane 


(I) Sales 

(II) training 

group 

(J) Sales 

training 

group 

Mean Differ¬ 
ence (l-J) 

Std. 

Error 

Sig. 

95% Confidence 

Interval 

Lower 

Bound 

Upper 

Bound 

1 

2 

-9,98789* 

3,84 

,040 

-19,60 

-,3705 

3 

-15,69947* 

3,18 

,000 

-23,82 

-7,5198 

2 

1 

9,98789* 

3,84 

,040 

,37 

19,6053 

3 

-5,71158 

2,57 

,102 

-12,28 

,8539 

3 

1 

15,69947* 

3,18 

,000 

7,52 

23,8792 

2 

5,71158 

2,57 

,102 

-,85 

12,2771 


*. The mean difference is significant at the 0.05 level. 


En la tabla anterior la information sobre los resultados de los examenes se ha dividido 
en grupos, de acuerdo al numero de dias que asistieron a las clases de actualizacion. 

La letra (J) designa a los otros grupos con los cuales el grupo (I) se compara 


En el lado izquierdo, el grupo que tuvo un solo dia de actualizacion se compara con los 
que tuvieron 2 y 3 dias respectivamente 
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La primera fila de la segunda columna muestra las diferencia en las medias entre el 
primer grupo y los otros dos (-9,98789 y -15,69947, respectivamente) 

Asi, el promedio de las diferencias de las medias en los examenes que obtuvo el grupo 
de quienes tuvieron solo un dia de clases con el grupo que tuvo 2 dias es -9.98789. 

La diferencia en el promedio de examenes entre los participantes del mismo grupo que 
tuvo un solo dia de clases de actualizacion con el que tuvo 3 dias, es de -15,6997 

Dado que las diferencias en ambos casos es negativa, deducimos que el desempeno de 
los que asistieron un dia a las clases fue menor que el de los otros dos grupos. 

El numero 2, en azul, representa al grupo que asistio 2 dias a las clases; la diferencia de 
las calificaciones del examen con relacion al grupo 1 se repite, por supuesto. 

Pero esta vez con signo positivo, dado que el rendimiento de los participantes del gru¬ 
po 2 fue mayor. 

La diferencia de las calificaciones del grupo 2 con las del grupo que asistio 3 dias a las 
clases es negativa, -5,71158 

La comparacion del grupo 3 tiene el mismo procedimiento. 

El nivel Sig para las diferencias de las Medias entre el grupo 1 y el 2 es Sig =0.040 

En razon de que el nivel Sig es menor que el 5% deducimos que hay una diferencia es- 
tadisticamente significativa entre los que asistieron un dia y los que fueron dos dias 

El nivel Sig de contraste entre el grupo que asistio dos dias y el de los que asistieron 
tres dias al programa de actualizacion es 10.2 

Este valor Sig es mayor que el 5% 

Por lo que deducimos que no hay una diferencia estadisticamente significativa entre los 
grupos que asistieron 2 dias, por una parte, y el grupo que tuvo 3 dias de actualizacion. 

Resumen 

Por lo analizado hasta ahora, deducimos que con el procedimiento One-Way ANOVA 
podemos realizar varias operaciones importantes: 

Validar o no el supuesto de la igualdad de varianzas en varios grupos. 

Obtener todos los resultados que ANOVA pone a disposition 

Visualizar los promedios de cada grupo. 

Realizar contrastes personalizados para hipotesis especificas. 
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Comparar cada media con todas y cada una de las demas, ya sea asumiendo igualdad 
de varianzas o no. 

Otros Procedimientos similares 

Vimos que One-Way ANTOVA es usado para testar hipotesis sobre la igualdad de las 
medias de varios grupos, no solo de dos. 

Tambien se puede usar al procedimiento Means para obtener one-way analisis de va- 
rianza con un test de linearialidad 

Si es necesario usar factores multiples, debe recurrirse al procedimiento GLM Univa¬ 
riate para obtener two-way ANOVAde la covarianza y mas. 

Eso es precisamente lo que haremos en el proximo capitulo. 



EL PROCEDIMIENTO GLM 


El procedimiento GLM Univariado nos permite ver la relacion de una variable depen- 
diente numerica con otras variables categoricas y predictores numericos. 

Se basa en al procedimiento del Modelo General Lineal en el que los factores y cova¬ 
riables tienen alguna relacion lineal con la variable dependiente. 

Factores 

Los factores del modelo son variables categoricas o de escala; cada nivel de un factor 
dado puede tener un efecto lineal en el valor de la variable dependiente. 

La Variable dependiente es cuantitativa. 

Los factores fijos son las variables cuyos valores de interes se presentan en los datos. 

Los factores aleatorios (Random-effect factors ) son variables cuyos valores pueden ser 
considerados como una muestra aleatoria de una poblacion grande de valores. 

Por ejemplo, una tienda puede estar interesada en determinar cuales factores, de la 
variedad existente afectan las compras. 
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Puede ser que le interese determinar si el Genero y los Estilos de compra mensual que 
realizan los clientes en una cadena de tiendas, influyen sobre las compras 

En este caso, se tomaria como factores el genero y el estilo de compras. 

Estas ultimas podrian clasificarse como compras dos veces por semana, una vez por 
semana y otros similares. 

Por otro lado, utilizar mas de un factor permite identificar la influencia, no solo de cada 
factor sobre la variable dependiente, sino la interaccion de los factores. 

De este modo, en un analisis de dos factores, v.g, hay tres efectos que nos interesan: la 
de cada factor (dos efectos en este caso) y el efecto de la interaccion. 

El fin principal es apreciar la importancia de las variaciones debidas a una diferencia 
real entre dos muestras con relation a la diferencia que surge por simple azar. 

Por eso es que los teoricos de la Estadistica han se han encontrado con la necesidad de 
descomponer la suma total de cuadrados en dos vertientes. 

Ya lo vimos en el capitulo anterior, al iniciar el ANOVA: la vertiente que viene de la va¬ 
riation real entre las muestras y la vertiente que proviene de azar. 

Si la Suma de cuadrados debida a la verdadera diferencia entre las muestras supera a 
la que viene del azar, ese cociente sera mayor que 1. 

Entonces podremos afirmar que hay una diferencia real entre las muestras. 

GLM Univariate para realizar un Two-Factor Analysis of Variance 

Una tienda de abarrotes esta interesada en los efectos de cinco diferentes tipos de cu- 
pones sobre los gastos de los clientes; archivo grocery_lmonth.sav 

Usaremos el procedimiento GLM Univariate para realizar un ANOVA de dos factores, o 
lo que ese lo mismo, un procedimiento Two-Way ANOVA 

Menu —> Analyze —> General Model —> Univariate 

—» Amount spent (Como la variable dependiente) 

—>Gender and Shopping style (Factores fijos) 

Hasta el momento, lo realizado debe lucir tal como se muestra en la Caja 12.1 
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Caja 12.1 


Ur>iv«natc 


Store ID [storwd] 

0 : Healtn food store (hi 
J Size of store [size} 
4b Store organization ( 
46 Customer ID [custidj 
46 Who shopping for [s 
46 Vegetanan [veg] 

«6 Use coupons [usee 
# Predicted Value lor 
£> Cluster Number of 
£ <Jd_1 = 3 (FILTER) (I 


Dependent variable _ 

# Amount spent [amts 

Fixed Factor(s) 


0 


S> 

• Shopping sMe Istyte] 


Random Factors) 


Covanate(s) 


WLS Weight 

* r:~"' 


MOO.I 
| Contrasts 
Plots 

l'*” 1 ** I 

Save 

Options 


Bootstrap 


OK Past* Rasol Cancot Halp 


—► Plots —► style en el eje de las X —► Gender en la casilla “separate lines variable” 
Add —► Continue —► Post Hoc en la caja de dialogo GLM Univariate 


—► style (como la variable para la que se realizara el test post hoc) 
“Equal Variances Assumed group —► Continue —> Options 


Tukey fen la casilla 


—► gender*style como el elemento para el que se desplegara las medias 

—»Descriptive statistics —> Homogeneity tests —> Estimates of effect size —> Spread vs. level 
plot en el despliegue del grupo —» Continue —> OK 


Tabla de Resultados 12.1 


Descriptive Statistics 

Dependent Variable: Amount spent 

Gender 

Shopping style 

Mean 

Std. Deviation 

N 

Male 

Biweekly; in bulk 

413,06 

90,86574 

35 

Weekly; similar items 

440,96 

98,23860 

120 

Often; what's on sale 

407,77 

69,33334 

30 

Total 

430,30 

93,47877 

185 

Female 

Biweekly; in bulk 

343,98 

100,47207 

35 

Weekly; similar items 

361,72 

90,46076 

102 

Often; what's on sale 

405,72 

80,57058 

29 

Total 

365,67 

92,64058 

166 

Total 

Biweekly; in bulk 

378,52 

101,25839 

70 

Weekly; similar items 

404,55 

102,48440 

222 

Often; what's on sale 

406,77 

74,42114 

59 

Total 

399,73 

98,40821 

351 
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En la pantalla de datos se despliegan tres tablas, de las que traemos primero la que 
etiquetamos como tabla 

La tabla despliega estadisticas descriptivas para cada una de las combinaciones de fac- 
tores en el modelo; podria detectarse un efecto debido a shopping style. 

En promedio, las compras dos veces por semana (biweekly) los clientes gastan 
$378.52, mientras que los clientes que compran una vez por semana, gastan $404.55 

Los clientes que compran a menudo (often) gastan $406.76 en cada compra. 

El efecto Gender; en el promedio los hombres gastan $430.30 en comparacion con las 
compras que realizan las mujeres, que es de $365.66 en promedio. 

Hay un efecto de interaccion entre “Gender” y “Shopping Style” 

Pues las diferencias de sus medias en el total del gasto clasificado por shopping style 
varian entre los generos (Genders) 

Los clientes varones que compran dos veces por semana gastan mas en cada compra 
(413.0657) que los clientes clasificados en “often = liquidacion” (407.77) 

Sin embargo, la tendencia se revierte para las compras realizadas por mujeres en las 
categorias dos veces por semana ($ 343.98) y often = liquidacion ($405.73) 

La columna N de la tabla muestra que las celdas tienen diferentes tamanos. 

La mayor parte de los clientes prefiere realizar sus compras semanalmente. 

Las desviaciones standard parecen relativamente homogeneas, para asegurarnos 
traemos la tabla correspondiente al test Levene 

Test de Levene 

La tabla... testa la hipotesis nula de que la varianza del termino de error es constante en 
todas las celdas, definidas por la combination de los niveles de factor 

Dado que el valor Sig = 0.330, es mayor que 0.10, por lo que aceptamos la hipotesis 
nula de que no hay diferencias entre las varianzas del total de las celdas 

Las pequenas diferencias en las desviaciones estandar de los grupos que observamos 
en la tabla de estadisticas descriptivas, son variaciones debidas al azar. 

La grafica de puntos spread vs. level registra las medias aritmeticas de cada celda y 
las respectivas desviaciones estandar de la tabla 12.2 

La grafica 12.1 nos muestra un cuadro visual del supuesto de igualdad de varianzas 
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Tabla de Resultados 12.2 


Levene's Test of Equality of Error Variances 3 

Dependent Variable: Amount spent 

F 

dfl 

df2 

Sig. 

1,157 

5 

345 

,330 


Incluye informacion para averiguar si las violaciones al supuesto se deben a la relacion 
entre las medias de las celdas y sus desviaciones estandar. 

La dispersion de los puntos de la grafica 12.1 muestra que no hay una relacion estadis- 
ticamente significativa entre las medias y las desviaciones estandar. 

La Tabla 12.3 testa la importancia de un factor, aunque no nos indica la manera en que 
cada factor varia 

La grafica 12 muestra la relacion entre la Media y la Desviacion Estandar. 

Incluye informacion para averiguar si las violaciones al supuesto se deben a la relacion 
entre las medias de las celdas y sus desviaciones estandar. 

Grafica 12.1 

Spread vs. Level Plot of Amount spent 



—i-1-1-1-1— 

350,00 375,00 400,00 425,00 450,00 

Level (Mean) 

Groups: gender* style 


La dispersion de los puntos de la grafica 12.1 muestra que no hay una relacion estadis- 
ticamente significativa entre las medias y las desviaciones estandar. 


El test post hoc muestra las diferencias en el modelo de prediction de las medias para 
cada par de niveles de factor; la Tabla de Resultados 12.3 muestra las diferencias de 
estilos de compra entre hombres y mujeres 
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Tabla de Resultados 12.3 


Gender * Shopping style 

Dependent Variable: Amount spent 

Gender 

Shopping style 

Mean 

Std. Er- 

95% Confidence Interval 




ror 

Lower Bound 

Upper Bound 


Biweekly; in bulk 

413,07 

15,55 

382,48 

443,65 

Male 

Weekly; similar items 

440,96 

8,39 

424,45 

457,48 


Often; what's on sale 

407,77 

16,79 

374,74 

440,81 


Biweekly; in bulk 

343,98 

15,55 

313,39 

374,56 

Female 

Weekly; similar items 

361,72 

9,11 

343,80 

379,64 


Often; what's on sale 

405,73 

17,08 

372,12 

439,33 


Por lo general, los hombres tienen un gasto mayor en las compras. La Tabla 12.3 testa 
la importancia de un factor, aunque no nos indica la manera en que cada factor varfa. 

El test post hoc muestra las diferencias en el modelo de prediccion de las medias para 
cada par de niveles de factor. 

Tabla de Resultados 12.4 


Multiple Comparisons 

Dependent Variable: Amount spent 

Tukey HSD 

(1) Shopping style 

(J) Shopping style 

Mean Dif¬ 
ference 

(l-J) 

Std. 

Error 

Sig. 

95% Confidence 

Interval 

Lower 

Bound 

Upper 

Bound 

Biweekly; in bulk 

Weekly; similar items 

-26,03 

12,61 

,099 

-55,72 

3,65 

Often; what's on sale 

-28,23 

16,26 

,193 

-66,52 

10,02 

Weekly; similar items 

Biweekly; in bulk 

26,03 

12,61 

,099 

-3,65 

55,72 

Often; what's on sale 

-2,21 

13,47 

,985 

-33,93 

29,51 

Often; what's on sale 

Biweekly; in bulk 

28,25 

16,26 

,193 

-10,02 

66,52 

Weekly; similar items 

2,21 

13,47 

,985 

-29,51 

33,93 

Based on observed means. 

The error term is Mean Square (Error) = 8463,939. 


En la tabla 12.4 vemos la information que necesitamos 
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A1 igual que en el anterior capitulo, la variable que se desea comparar con las otras es 
la que se etiqueta con (I) las variable con las que compara son las (J) en cada caso 

En la primera fila de la primera columna se compara Shopping Style = (I) con las otras 
dos modalidades de compra: Weekly similar items y Often, wht’s on sale. 

La diferencia entre las media de quienes compran bisemanalmente (Biweekly) y la me¬ 
dia de quienes compran una vez por semana (Weekly) es -26.03 

En la tabla 12.4 todos los valores Sig son superiores a 0.05. 

De alii deducimos que no habria diferencias significativas entre los habitos de compra 
establecidos: "biweekly", "weekly", or "often" por parte de los clientes. 

Las medias aritmeticas de los grupos se presentan en sub conjuntos homogeneos y 
fueron deducidas las medias observadas. 

Los sub conjuntos homogeneos de la tabla traen los resultados de los test post hoc. 

En la columna de sub conjuntos (subtes) los niveles de factor que no tienen diferentes 
efectos significativos. 

En la tabla 12.5, el primer sub conjunto contiene las modalidades de compra que tienen 
los clientes: "biweekly", "weekly", and "often". 

Es el unico subconjunto, puesto que alii estan representados todos los clientes. 

Tabla de Resultados 12.5 


Amount spent 

Tukey HSD 

Shopping style 

N 

Subset 

1 

Biweekly; in bulk 

70 

378,52 

Weekly; similar items 

222 

404,55 

Often; what's on sale 

59 

406,77 

Sig. 


,12 


Las medias aritmeticas de los grupos se presentan en sub conjuntos homogeneos y 
fueron deducidas las medias observadas. 
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Los sub conjuntos homogeneos de la tabla traen los resultados de los test post hoc. 

En la columna de sub conjuntos (subtes) los niveles de factor que no tienen diferentes 
efectos significativos. 

En la tabla 12.4, el primer sub conjunto contiene las modalidades de compra que tienen 
los clientes: "biweekly", "weekly", and "often". 

Es el unico subconjunto, puesto que alii estan representados todos los clientes. 

El test post hoc sugiere que no es necesario incitar a los clientes para que compren mas 
a menudo de lo usual porque el gasto no aumentara significativamente. 

Los resultados del test post hoc no toman en cuenta los niveles de otros factores. 

De este modo, ignoran la posibilidad de un efecto interactivo de Gender y la tabla de 
estadisticos descriptivos 

Para tener una mejor informacion veremos los estimados de las medias marginales y 
comprobar como pueden cambiar nuestras conclusiones 

Para ello trasladamos la tabla 12.6 de la Pantalla de Resultados. 

Ubicamos las medias marginales del modelo y sus desviaciones estandar de los gastos 
con relacion a las combinaciones de los factores Gender y Shopping style. 

La informacion que nos proporciona la tabla 12.6 es muy importante para explorar los 
posibles efectos de interaction entre los dos factores. 

Tabla 12.6 

Gender * Shopping style 


Dependent Variable: Amount spent 


Gender 

Shopping style 

Mean 

Std. Error 

95% Confidence Interval 

Lower Bound 

Upper Bound 

Male 

Biweekly; in bulk 

413,07 

15,55 

382,47 

443,65 

Weekly; similar items 

440,96 

8,39 

424,44 

457,48 

Often; what's on sale 

407,77 

16,79 

374,73 

440,81 

Female 

Biweekly; in bulk 

343,97 

15,55 

313,39 

374,56 

Weekly; similar items 

361,720 

9,11 

343,80 

379,63 

Often; what's on sale 

405,72 

17,08 

372,12 

439,32 
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Se espera que un cliente masculino que realiza sus compras weekly, gaste $440.96, 
mientras que esperariamos que otro cliente que compra “Often” gaste $407.77 

Tambien se espera que una mujer que compra “weekly” gaste $ 361.72 mientras que 
otra, de la modalidad “Often”, gaste $405.72 

De este modo concluimos que hay una diferencia significativa entre las modalidades de 
compra “weekly” y “often”, la que depende del genero del cliente. 

Esto nos sugiere que existe un efecto de interaccion entre Gender y Shopping style. 

Grafica 12.2 


Estimated Marginal Means of Amount spent 



Si no hubiera interaccion esperariamos que la diferencia entre shopping styles perma- 
neciera constante entre clientes masculinos y femeninos. 

La interaccion puede ser detectada facilmente en los graficos de perfil, tabla 12.2 
En el eje horizontal se registra los niveles del factor Shoping style 

El grafico disena lineas separadas para cada nivel de Gender. 

Si no hay efectos de interaccion, las lineas en el grafico serian paralelas 

En cambio, la diferencia de los gastos realizados entre los clientes que compran bajo 
las modalidades de “weekly” y “often” es mayor para la clientela femenina. 

Lo deducimos porque las lineas para la clientela femenina tienen pendiente positiva 
(hacia arriba) y las de la clientela masculina, pendiente negativa (hacia abajo) 

Hay un efecto de interaccion fuerte que no es probable que se deba al azar. 
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Pero, para asegurarse, se puede comprobar el grado de signification con los tests de 
los efectos “between-subjects” 

Para este proposito, copiamos de la Pantalla de Resultados la tabla que llamaremos Ta- 
bla 12.7 y que es una tabla de ANOVA 

Tabla 12.7: Dependent Variable: Amount Spent 


Source 

Type III 

Sum of 

Squares 

df 

Mean Square 

F 

Sig. 

Corrected 

Model 

469403® 

5 

93880,59 

11,09 

,000 

Intercept 

39359636,38 

1 

39359636,38 

4650,27 

,000 

gender 

158037,44 

1 

158037,44 

18,67 

,000 

style 

33506,21 

2 

16753,10 

1,98 

,140 

gender * style 

69858,32 

2 

34929,16 

4,12 

,017 

Error 

2920058,82 

345 

8463,94 



Total 

59475118,44 

351 




Corrected To¬ 
tal 

3389461,820 

350 





Cada termino en el modelo, mas el modelo como un todo es testado acerca de su capa- 
cidad de tomar en cuenta la variacion en la variable dependiente 

Las etiquetas de las variables no se registran en la tabla 

El valor Sig para cada termino, excepto para Style, es menos que 0.05; asi concluimos 
en que cada termino, excepto Style es estadisticamente significativo 

No tomamos en cuenta la ultima columna de la tabla que figura en la Pantalla de resul¬ 
tados, puesto que aun no hemos conceptualizado el estadistico Eta y sus variantes 

Resumen 

En este ejemplo vimos que los tests post hoc no revelan diferencias significativas entre 
los clientes que compran “weekly” y los que compran en la modalidad “Often” 

Sin embargo, los estimados de las medias marginales y los graficos de perfil revelaron 
una interaction entre los dos factores. 

Lo que sugirio que la clientela masculina que compra una vez a la semana (weekly) es 
mas rentable que los que compran en la modalidad Often. 
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Esa tendencia se revierte para la clientela femenina; la significancia del efecto interac¬ 
tion fue confirmada por los resultados de la tabla ANOVA. 

El uso del GLM Univariate para realizar un Analysis of Covariance. 

Se desea testar la bondad de un programa de trabajo para ayudar a la gente en sus es- 
fuerzos de buscar trabajo, para lo cual tenemos una variable de control 

Es el salario que cada participate tenia antes de ingresar al programa. 

Del total de los participates, algunos fueron elegidos al azar para ingresar al progra¬ 
ma, mientras que otros quedaron excluidos, compararemos los dos grupos. 

Antes de correr el programa defimremos un nuevo termino 

La Covariada 

Es una variable secundaria que afecta la relation entre una variable dependiente y 
otras variables independientes 

Los datos estan en el archivo workprog.sav 

Usaremos el procedimiento GLM Univariado para realizar una analisis de covarianza 
(ANCOVA) sobre los ingresos del programa. 

Un supuesto extra de ANCOVA es que no hay una interaccion significativa entre las co- 
variadas del factor, asi iniciamos el modelo con un termino de interaccion 

Analyze —> General Linear Model —> Univariate —> Reset —> Income after the program (co- 
mo la variable dependiente) —> Program status (Como el factor fijo) —► Income before 
the program (como la covariada) —► Model 

Elegimos Custom (como el tipo de modelo) 

En la lista de factores y covariadas, a la izquierda hacemos click, manchando las dos 
variables: prog and incbef 

Elegimos Build Term(s) drop-down list buscamos Main effects y con la fleche introdu- 
cimos las dos variables a la pantalla de la derecha. 

Otra vez volvemos a la lista de variable para manchar con click a las dos variables. 

Esta vez vamos a Build Term(s) drop-down list pero buscamos Interaction 

Click en la flecha y en la apantalla de la derecha se registra incbef*prog 
Continue —» Options in the GLM Univariate dialog box. 

De la parte inferior (Diplaye) elegimos Estimates of effect size —> Continue —> OK 
En la Tabla 12.8 se registran los estadisticos que hemos convocado. 
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Los significados de las abreviaciones son los siguientes: 

prog = el programa de ayuda 

incbef = salario antes de ingresar al programa 

prog*incbef = la interaction de las dos variables 


Tabla 12.9 


Source 

Type III Sum 

of Squares 

df 

Mean Square 

F 

Sig. 

Corrected Model 

12295,033 a 

3 

4098,344 

429,755 

,000 

Intercept 

131,271 

1 

131,271 

13,765 

,000 

prog 

106,795 

1 

106,795 

11,199 

,001 

incbef 

7152,586 

1 

7152,586 

750,025 

,000 

prog * incbef 

4,292 

1 

4,292 

,450 

,502 

Error 

9498,318 

996 

9,536 



Total 

297121,000 

1000 




Corrected Total 

21793,351 

999 





Se ha cortado la columna sobre Partial Eta Squared, estadistico que veremos en otro 
capitulo, con mayor detalle 

La llamada al pie del cuadro se refiere al Coeficiente de correlation, cuyo significado 
sera muy importante en el segundo tomo de esta obra: Econometria Aplicada. 

Lo primero que vemos es el valor Sig = 0.502 de la interaccion prog*incbef es mayor 
que 0.05, lo que nos indica que la interaccion no es importante. 

Volvamos al cuadro de dialogo GLM Univariate —> Model —> Full factorial —> Continue 
Options in the GLM Univariate dialog box. 


Tabla 12.9 Descriptive Statistics 

Dependent Variable: Income after the program 

Program status 

Mean 

Std. Deviation 

N 

0 

14,4023 

3,89303 

517 

1 

18,9379 

4,28162 

483 

Total 

16,5930 

4,67067 

1000 


Elegimos Descriptive statistics, Homogeneity tests, Spread vs. level plot, and Parame¬ 
ter estimates in the Display group —> Continue OK. 
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Esta opcion produce un analisis de covarianza para estimar el efecto del programa de 
participation, controlada por la variable salario antes de ingresar al programa. 

La tabla 12.11 muestra una diferencia en la media del ingreso antes y despues del pro¬ 
grama; vemos una diferencia pequena en las desviaciones estandar 

El nivel Sig = 0.028 del test de Levene es menor a 0.05, lo que nos sugiere que el su- 
puesto de varianzas iguales no se sostiene 

Sin embargo, dado que hay solo dos celdas definidas por la combination de los niveles 
de factor, no se puede tener una conclusion definitiva al respecto 


Tabla 12.11: Levene's Test of Equality of Error Variances 3 


Dependent Variable: Income after the program 


F 

dfi 

df 2 

Sig. 

4,873 

1 

998 

,028 


Tests the null hypothesis that the error variance of the depend¬ 
ent variable is equal across groups. 


a. Design: Intercept + incbef + prog 


El Diagrama de puntos 12.4, de Spread (Desviacion estandar) versus-level (Media) 
muestra lo que parece ser una relation entre la media y la desviacion estandar. Pero, 
debido al escaso numero de grupos, no se puede establecer nada concluyente. 


Diagrama 12.4 


Spread vs. Level Plot of Income after the program 

4,3“ 

o 
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La diferencia en Spread (Desviacion Estandar) es pequena (0.38859) con relacion a la 
diferencia en el nivel (Media) que es 4.5256 

Asi, podemos asumir que la varianza es la misma para ambos grupos. 


Tabla 12.12: Tests of Between-Subjects Effects 

Dependent Variable: Income after the program 

Source 

Type III 

Sum of 

Squares 

df 

Mean 

Square 

F 

Sig. 

Partial Eta 

Squared 

Corrected Mo¬ 
del 

12290,741 a 

2 

6145,370 

644,763 

,000 

,564 

Intercept 

131,400 

1 

131,400 

13,786 

,000 

,014 

incbef 

7153,844 

1 

7153,844 

750,571 

,000 

,429 

prog 

4735,662 

1 

4735,662 

496,859 

,000 

,333 

Error 

9502,610 

997 

9,531 




Total 

297121,000 

1000 





Corrected To¬ 
tal 

21793,351 

999 





a. R Squared = ,564 (Adjusted R Squared = ,563) 


En la tabla 12.12 el valor Sig = 0, 000 para las diferencias salariales entre incbef y prog 

Ese valor es menor a 0.05, lo que nos indica que el programa tiene un influencia signifi- 
cativa sobre el ingreso 

Los estimados de los parametros se registran en la tabla 12.13 y muestran el efecto de 
cada predictor sobre el ingreso despues del programa 


Tabla 12.13: Parameter Estimates 
Dependent variable: income after the program 


Parame¬ 

ter 

B 

Std. 

Error 

t 

Sig. 

95% Confidence Interval 

Lower 

Bound 

Upper 

Bound 

Intercept 

4,197 

,556 

7,548 

,000 

3,106 

5,288 

incbef 

1,636 

,060 

27,397 

,000 

1,519 

1,753 

[prog=0] 

-4,357 

,195 

-22,290 

,000 

-4,741 

-3,974 

[prog=1] 

o a 







El valor -4.357 para (PROG = 0) es un dato muy importante, pues nos permite comparar 
el ingreso de dos sujetos antes del programa. 
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La comparacion nos dice que despues del programa, el que no participo del mismo 
tendra un ingreso anual de $4357 dolares menos que para el que si, participo 

Resumen 

Especificando una interaccion entre la covariable y el factor, se puede testar la homo- 
geneidad del parametro de la covariable en todo el rango del factor. 

Dado que el termino de interaccion no fue significativo en el ejemplo desarrollado, de- 
ducimos que los estimados de los parametros de la covariable son homogeneos. 

Por eso se procedio al analisis de covarianza 

Asi encontramos que la participacion en el programa permitio el incremento del salario 
en un promedio de $4,357 con relacion al que no participo 

Si el termino de interaccion fuera significativo se podria usar el modelo con el termino 
de interaccion, en el entendido que al sopesar el efecto de la participacion en el pro¬ 
grama se complica con la presencia de la interaccion. 

Esto significa que cuando el termino de interaccion es significante, la diferencia entre 
las medias salariales de los participantes y no participantes cambia para valores dife- 
rentes de los niveles de ingreso antes del programa 

El uso del procedimiento GLM Univariado para efectos aleatorios 

En los analisis efectuados sobre la cadena de tiendas se examino la relacion entre los 
habitos de compra de los clientes y el monto de gasto realizado en cada caso. 

Hay, sin embargo, una gran variacion entre tienda y tienda, que reduce la posibilidad 
de estimar los efectos de estos comportamientos. 

Anadiendo la ubicacion de las sucursales como un efecto aleatorio, se puede reducir la 
variacion no explicada 

Incrementamos asi la exactitud de los estimados de los ter-minos de otros modelos. 

La informacion para ese ejercicio esta en el archivo grocery_1 month.sav. 

Usaremos el procedimiento GLM Univariado para ajustar un modelo con efectos fijos y 
aleatorios sobre los montos gastados en las compras. 

Analyze —> General Linear Model —> Univariate —> Reset (restaura los valores) 
Elegimos Amount spent (Como variable dependiente) 

Elegimos Who shopping for and Use coupons (Como factores fijos) 

Options —*■ Estimates of effect size —> Continue —> OK. 

La tabla 12.14 tiene la informacion 
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Tabla 12.14 


Tests of Between-Subjects Effects 

Dependent Variable: Amount spent 

Source 

Type III Sum 

of Squares 

df 

Mean Square 

F 

Sig. 

Partial Eta Squa¬ 
red 

Corrected Model 

1867084,001 a 

11 

169734,909 

37,796 

,000 

,551 

Intercept 

54651422,01 

1 

54651422,013 

12169,66 

,000 

,973 

shopfor 

1329509,066 

2 

664754,533 

148,026 

,000 

,466 

usecoup 

317508,903 

3 

105836,301 

23,567 

,000 

,173 

shopfor * 

usecoup 

192031,603 

6 

32005,26 

7,127 

,000 

,112 

Error 

1522377,820 

339 

4490,79 




Total 

59475118,44 

351 





Corrected Total 

3389461,820 

350 





a. R Squared = ,551 (Adjusted R Squared = ,536) 


El test de effectos between-subjets muestra que todos los terminos del modelo tienen 
valores Sig = 0.000, menores que 0.05, son estadisticamente significativos. 

Ahora anadiremos la sucursal ID como un factor de efectos aleatorios para ver si el mo¬ 
delo mejora o no 

Caja de Dialogo GLM —► Store ID (Como factor aleatorio) —► Model. 

Custom (Como modelo tipo) — * shopfor and usecoup in the Factors and Covariates list. 

Main effects from the Build Term(s) drop-down list and select the main effects to the 
model —► trasladamos hopfor and use coup in the Factors and Covariates list. 

Interaction from the Build Term(s) drop-down list and select the interaction term to the 
model para las mismas variables 

Elegimos storeid in the Factors and Covariates list —> Build Term(s) drop-down list —> In¬ 
teraction —> Continue —» OK. 

El anadido de Store ID como un factor de efectos aleatorios reduce la variabilidad total 
no explicada, etiquetada como Error. 

La reduction es de 1,522,377.82 (Tabla 12.14) a 1,073,908.57 (Tabla 12.15) 

Tambien reduce la variation explicada por los efectos principales: use coup y shpfor 


163 




















Esto muestra que algunas de las variaciones explicadas originalmente por los terminos 
de estos modelos pueden explicarse mejor con Store ID. 


Tabla 12.15: Dependent Varia¬ 
ble: Amount to spendSource 

Type III 

Sum of 

Squares 

df 

Mean Square 

F 

Sig. 

Intercept 

Hypothesis 

51402962,48 

1 

51402962,479 

7173,14 

,000 

Error 

479937,37 

66,97 

7166,027 a 



shopfor 

Hypothesis 

1109546,71 

2 

554773,357 

144,646 

,000 

Error 

1073908,58 

280 

3835,388 b 



usecoup 

Hypothesis 

253850,61 

3 

84616,869 

22,062 

,000 

Error 

1073908,58 

280 

3835,388 b 



shopfor * 

usecoup 

Hypothesis 

138871,54 

6 

23145,257 

6,035 

,000 

Error 

1073908,58 

280 

3835,388 b 



storeid 

Hypothesis 

448469,24 

59 

7601,174 

1,982 

,000 

Error 

1073908,58 

280 

3835,388 b 




Resumen 

En este ejemplo, encontramos que anadiendo el factor aleatorio al modelo, incremento 
la varianza relativa explicada por los otros terminos del modelo 

Procedimientos relacionados 

El procedimiento GLM Univariado es util para modelar relaciones lineales entre una 
variable dependiente de escala y una o mas variables categoricas.pronosticadoras. 

Si hay un solo factor, se puede usar One-Way ANOVA 

Si hay covariadas es preciso usar el procedimiento Regresion Lineal, que es motivo del 
segundo volumen de esta obra. 
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LA CORELACION LINEAL 
BIVARIADA 


Las Correlaciones Bivariadas detectan las asociaciones entre pares que hay en un con- 
junto de variables, tal como veremos en la solucion del siguiente problema 

Es un procedimiento muy util para determinar la fuerza y la direccion de la asociacion 
entre variables de escala o variables ordinales. 

Las asociaciones entre variables pueden dividirse en dos grandes grupos. 

Primero, cuando ninguna de las variables es considerada como dependiente de otra. 
Segundo, cuando una variable es claramente dependiente de otra u otras. 

Si un alumno sobresale en la materia de matematicas, es muy posible que tambien 
tenga buenas notas en estadistica o viceversa. 

No hay una clara relacion de dependencia en esta asociacion de variables. 

Por el otro lado, el Consumo depende nitidamente del Ingreso; en este caso, el consu- 
mo es una variable dependiente del Ingreso, la que consideramos independiente. 

En este capitulo analizaremos el primer caso bajo el nombre de Correlacion Lineal Bi- 
variada, es decir la asociacion de dos variables. 

La Correlacion Lineal Bivariada 

Es la asociacion que existe entre dos variables cuando ambas varian, en sentido directo 
o inverso, pero no es posible establecer la dependencia de ninguna de ellas. 

El grado de Correlacion Bivariada es calculado por medio del Coeficiente de Correla¬ 
cion de Pearson, el estadistico rho de Spearman y el tau-b de Kendall. 

Cada estadistico tiene sus respectivos niveles de significancia. 

Antes de proceder a la estimation de los coeficientes de correlacion, es muy util tomar 
los valores respectivos de ambas variables y graficarlos. 
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Por otra parte, determinar la existencia de valores extremos (outliers) y evidenciar la 
existencia de una relacion lineal. 

Dos variables pueden estar muy correlacionadas entre si, pero si la asociacion no es 
lineal, el Coeficiente de Pearson no sera util para medir el grado de asociacion. 

Estudio de Caso 

Con el objeto de incrementar las ventas, los expertos en diseno de vehiculos de una 
firma han orientado su atencion a los aspectos que el cliente considera importantes. 

Por ejemplo, la importancia entre el gasto de combustible con relacion a las ventas. 
Una manera de medir esta asociacion es calcular la estimacion entre ambas. 

La information relativa al caso esta en el archivo car_sales.sav. 

Vamos a usas el procedimiento de la Correlacion Bivariada para medir la importancia 
del consumo de combustible y las ventas de los vehiculos. 

Correlacion Bivariada con el SPSS 

Traemos el archivo car_sales.sav 

Como un paso preliminar, averigiiemos si las relaciones que podrian existir entre las 
diferentes variables que conforman el archivo. 

Menu —*■ Analyze > Correlate > Bivariate —> Sales in thousands y Fuel efficiency como las 
variables de analisis —> OK. 


Tabla 13.1: Correlations 



Sales in thou¬ 

Fuel effi¬ 



sands 

ciency 

Sales in thousands 

Pearson Correlation 

1 

-,017 


Sig. (2-tailed) 


,837 


N 

157 

154 

Fuel efficiency 

Pearson Correlation 

-,017 

1 


Sig. (2-tailed) 

,837 



N 

154 

154 


Traemos la tabla 13.1 de la Pantalla de Resultados; la relacion entre la variables Sales in 
thousands y Fuel efficiency esta medida por el Coeficiente de Pearson 

El Coeficiente de Correlacion de Pearson mide la asociacion lineal entre dos variables 
de escala 


166 













En la tabla 13.1ese coeficiente es negativo -0.017(Asombroso) pero su valor Sig = 0.837 
nos muestra que la relacion no es significativamente diferente de cero. 

El resultado sugiere que los expertos no deberian orientar sus esfuerzos en la fabrica¬ 
tion de motorizados ahorradores de combustible. 

Es que esa variable no tiene un efecto apreciable en las ventas. 

Pero el Coeficiente de Correlation de Pearson es mas eficiente cuando las variables 
tienen una distribution por lo menos aproximada a la normal y no tienen “ouliers” 

Un diagrama de puntos nos revelara los eventuales problemas 
Para disenarlo, vamos al Menu. 

Graphs —► Chart Builder —► Scatter/Dot gallery —<• Simple Scatter —► Sales in thousands (en 
el eje de las Y’s) —> Fuel efficiency (en las X’s) —> Groups/Point ID tab —> Point ID Label 


Diagrama 13.1 



Inmediatamente aparece, en la parte superior izquierda de la pantalla una casilla con la 
pregunta: ^Point Label Variable? 

De la lista de variables a la izquierda de la pantalla, elegimos Model y con el mouse la 
arrastramos hasta la casilla de la pregunta y tenemos el diagrama 13.1 

Esta ultima operation nos servira para que cada uno de los puntos en el diagrama ten- 
ga su etiqueta mostrando el modelo de automotor al que representa. 


Cada punto del diagrama tiene el nombre del modelo que representa 
Pero notamos la presencia de dos outliers en el diagrama 13.1. 
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El primero, representado por el modelo F-Series, en la parte superior izquierda y el 
otro, representado Metro, en la parte inferior derecha del diagrama. 

Dijimos ya que es necesario eliminar los valores extremos para lograr una mejor esti- 
macion del grado de correlation lineal entre dos variables. 

Sin embargo, supondremos que la F-serie es importante para el equipo que disena los 
modelos, por lo tanto lo mantendremos en la muestra. 

Pero, el modelo “Metro”, en la parte inferior derecha del diagrama es un valor extremo 
que, segun los disenadores, debemos excluir de la muestra. 

Menu —► Data —> Select Cases —<• If 

Aparece una nueva pantalla; en la casilla de texto introducimos la variable model y le 
anadimos manualmente la expresion ~= 'Metro'. 

Ese modelo ya no figurara en la muestra. 

Para comprobarlo, repetimos el ejercicio y en la Pantalla de Resultados aparece el 
nuevo diagrama, al que denominamos Diagrama 13.2 sin el modelo “metro” 

Diagrama 13.2 
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Analisis de los datos 

Con la muestra filtrada por la omision del modelo “metro” iniciamos el analisis de los 
datos, para ello vamos al Menu —> Correlate —► Bivariate 
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De la lista de variables a la izquierda de la pantalla traemos Fuel efficiency —> Log- 
transformed sales como variables de analisis. 


Tabla 13.2 Correlations 


Fuel effi¬ 
ciency 

Log- 

transformed 

sales 

Fuel efficiency 

Pearson Correlation 

i 

,136 

Sig. (2-tailed) 


,093 

N 

153 

153 

Log-transformed sa- 

les 

Pearson Correlation 

,136 

1 

Sig. (2-tailed) 

,093 


N 

153 

156 


Removido outlier “metro” y analizando la variable log-transformed sales vemos que la 
correlacion es positiva 0.136 pero aun no es significativamente diferente de 0. 

Sin embargo es posible deducir que el mercado para camiones y automoviles son dife- 
rentes y las razones para comprar uno u otro no son las mismas 

Para salir de dudas disenaremos otro diagrama de puntos, pero de manera tal que haya 
una variable diferenciadora, en este caso, el tipo de vehiculo. 

Para producir el diagrama de puntos para las variables Log-transformed sales y Fuel 
efficiency, controladas por la variable vehicule type hacemos lo siguiente. 

Chart Builder —► Croupe Scatter —> Log-transformed como la variables de las Y’s 
Fuel efficiency para el eye de lasX’s 

Vehicule type como la variable que define los colores —>OK. 

El diagrama de puntos 13.3 muestra camiones y automoviles con diferentes colores. 
Esta division puede mejorar el nivel de Asociacion entre las variables. 

Despues de la transformation logaritmica de la variable Sales in thousands el outlier de 
la parte superior izquierda del diagrama tambien ha desaparecido 
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Diagrama 13.3 



Ahora debemos dividir los datos originales de acuerdo con el tipo de vehiculo 

Menu —> Data —*■ Split File —> Compare groups —> Select Vehicle type como variable que 
servira referente para la division de grupos —> OK. 

Para analizar el archivo con los datos divididos en grupos 
Menu —» Correlate —* Bivariate —*■ OK. 

La Pantalla de Resultados registra la tabla 13.4; alii vemos que la division de los datos 
del archivo nos permite una asociacion mas clara. 

En efecto, el Coefficiente de Pearson para la correlacion entre Fuel efficiency y Log 
transformed sales controlada por automoviles es 0.451 y su valor Sig es 0.000. 

Para los camiones, el Coeficiente de Pearson es0.203, pero su valor Sig es 0.210 lo que 
nos sugiere que no hay una correlacion entre camiones y fuel effciency 
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De todos modos, este ejercicio nos sirvio para establecer algunas maneras que nos 
permitan mejorar nuestros hallazgos transformando variables usando medidas de co- 
rrelacion no parametricas 

Tabla 13.4 


Correlations 


Vehicle type 

Fuel efficiency 

Log- 

transformed 

sales 

Automobile 

Fuel efficiency 

Pearson Correlation 

1 

,451 



Sig. (2-tailed) 


.000 



N 

113 

113 


Log-transformed sales 

Pearson Correlation 

.451"" 

1 



Sig. (2-tailed) 

.000 




N 

113 

115 

Truck 

Fuel efficiency 

Pearson Correlation 

1 

.203 



Sig. (2-tailed) 


.210 



N 

40 

40 


Log-transformed sales 

Pearson Correlation 

.203 

1 



Sig. (2-tailed) 

.210 




N 

40 

41 


**. Correlation is significant at the 0.01 level (2-tailed). 


Otros estadisticos de Correlacion 

Los estadisticos Spearman’s rho y Kendallos tau-b miden el orden de rango de las aso- 
ciaciones entre dos variables de escala u ordinales. 

Tabla 13.5 


Correlations 


Vehicle type 

Fuel efficiency 

Log- 

transformed 

sales 

Sales in 
thousands 

Spearman's rho Automobile Fuel efficiency Correlation Coefficient 

1,000 

.425" 

.425" 

Sig (2-tailed) 


,000 

,000 

N 

113 

113 

113 

Log-transformed sales Correlation Coefficient 

.425 

1.000 

1,000 

Sig (2-tailed) 

.000 



N 

113 

115 

115 

Sales in thousands Correlation Coefficient 

.425^ 

1.000" 

1,000 

Sig (2-tailed) 

.000 



N 

113 

115 

115 

Truck Fuel efficiency Correlation Coefficient 

1,000 

.237 

.237 

Sig (2*tailed) 


.141 

.141 

N 

40 

40 

40 

Log-transformed sales Correlation Coefficient 

,237 

1.000 

1.000" 

Sig (2-talled) 

.141 



N 

40 

41 

41 

Sales in thousands Correlation Coefficient 

.237 

1.000" 

1,000 

Sig (2-tailed) 

.141 



N 

40 

41 

41 


~ Correlation is significant at me 0 01 level (2-tailed) 
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Su ventaja estriba en que no toman en cuenta la distribucion de las variables, mientras 
que el Coeficiente de Pearson exigia una distribucion cercana a la Normal. 

Para lograr un analisis usando Spearman’s rho, vamos a la caja de dialogo Correlacion 
Bivariada —> Sales in thousands como una variable de analisis 

Desactivamos el boton de Pearson y activamos el de Spearman —> OK. 

La pantalla de resultados nos trae la tabla 13.5 en la que los informes de Spearman’s 
rho estan divididos en automoviles y camiones. 

En la tabla comprobamos que la asociacion entre Log-transformed sales and Fuel effi¬ 
ciency es significativa 


Spearman’s rho tiene la misma correlacion con las ventas no transformadas 

Esto se debe a que el estadisticos se basa en ordenes de rango, los que no son cambia- 
dos por la transformacion logaritmica 

De esta manera, los valores extremos, outliers, tienen un efecto menor que en el esta- 
distico Spearman’s rho, por lo que es util como medida de asociacion. 

Resumen 

El uso de la Correlacion Bivariada nos proporciono una correlacion negativa entre sa¬ 
les in thousands y fuel efficiency, lo que no tenia sentido. 

Luego de remover los outliers y transformar la variable sales in thousands en sus loga- 
ritmos, la correlacion se hizo positiva, aunque no significativamente diferente de 0 

Separando los datos en camiones y automoviles encontramos una correlacion positiva 
estadisticamente significativa entre ventas y fuel efficiency para automoviles. 

Tambien llegamos a los mismos resultados sin necesidad de transformar las variables, 
usando Spearman's rho. 

Esto nos permite preguntarnos ^Por que debemos transformar las variables si el Esta- 
distico Spearman’s rho es tan conveniente. 

Si bien los ordenes de rango son efectivos para detectar alguna clase se asociacion en¬ 
tre 2 variables, necesitamos una transformacion para que la relacion sea lineal. 

Esto se debe a que hay mas modelos pronosticadores disponibles para relaciones li- 
neales, ademas de que son mas faciles para implementar e interpretarlos. 
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Correlaciones Parciales 

Las Correlaciones Parciales calculan los coeficientes parciales de correlacion que des- 
criben relaciones lineales entre dos variables 

Pero, lo hacen mientras se controla el efecto de una o mas variables adicionales; todas 
las variables deben ser numericas (escala) 

Caso de estudio 

Los estudios estadisticos de un programa de ayuda a la salud con fondos gubernamen- 
tal revelaron algo insolito: crecen los fondos y la tasa de mortalidad tambien. 

A1 parecer, segun los datos, que son correctos, la poblacion estaria mejor sin los fondos 
adicionales que el gobierno otorga a hospitales y clinicas. 

Esto significaba que habia una correlacion positiva entre el incremento de fondos para 
la salud y el aumento de las tasas de mortalidad. 

Aqui es necesario poner en evidencia que antes de correr un programa estadistico se 
debe contar con una teoria que respalde lo que se busca. 

En este caso, los numeros contradicen una teoria razonable, pues no es posible pensar 
que un incremento de fondos para la salud aumente la tasa de mortalidad. 

Para averiguar que sucede vamos a realizar un analisis de Correlacion sobre el archivo 
health_funding. sav 

Con el archivo en la pantalla: Analyze —> Correlate —> Partial —> Health care funding —> 
Reported disease rate como las variables 

Ahora incluimos una nueva variable: Visits to health care providers que la introducimos 
en la casilla inferior de la pantalla abierta como la variable de control 

—*■ Options —» Zero-order correlations —> Continue —> OK. 

La Pantalla de resultados registra la tabla 13.6, que. muestra las correlaciones de orden 
cero, de las tres variables, sin control de variable alguna 

Tambien la correlacion parcial de las dos primeras controladas por los efectos de la 
tercera variable 

La correlacion de orden cero entre health care fundingy disease rates cuando no intro¬ 
ducimos la variable control es 0.0737 para un valor Sig = 0.000 

Esto que nos muestra que hay una correlacion significativa entre ambas variables. 
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Pero, la correlation partial de la variable que controla, visits to health care, es insignifi- 
cante; el valor de la correlation es 0.013 y el valor Sig = 0.928 

Esto significa que la correlation entre las variables health care funding y disease rates 
es casi nula cuando introducimos la variable de control visits to health care 

Tabla 13.6 


Co« i elutions 







Visits to 




Hearth care 

Reported 

health care 




funding 

diseases 

providers 




(amount per 

(rate per 

(rale per 

Control Variables 



100) 

10.000) 

10,000) 

-non*-* 

Health care funding 

Correlation 

1,000 

737 

.964 


(amount per 100) 

Significance (2-tailed) 


.000 

.000 



df 

0 

48 

48 


Reported diseases (rate 

Correlation 

737 

1.000 

762 


per 10.000) 

Significance (2-tailed) 

,000 


.000 



df 

48 

0 

48 


Visits to health care 

Correlation 

.964 

762 

1.000 


providers (rate per 

10.000) 

Significance (2-tailed) 

.000 

,000 




df 

48 

48 

0 

Visits to health care 

Health care funding 

Correlation 

1,000 

.013 


providers (rate per 
10,000) 

(amount per 100) 

Significance (2-tailed) 


,928 




df 

0 

47 



Reported diseases (rate 

Correlation 

,013 

1,000 



per 10.000) 

Significance (2-talled) 

,928 





df 

47 

0 



a Celts contain zero-order (Pearson) correlations 


Las tasas de mortalidad parecen crecer con el incremento de los fondos de ayuda a la 
salud debido al crecimiento del numero de personas con acceso a esos servicios 

Por esta razon, los administradores de los hospitales y otros centros de atencion medi- 
ca informan sobre el numero creciente de muertes 

En consonancia con el mayor numero de personas enfermas que ahora acuden a los 
centros de salud. 

Lo importante de este ejercicio es que nos instruye sobre la necesidad de establecer 
una teoria previa antes de realizar cualquier programa estadistico. 

Resumen 

Las Correlaciones Parciales son apropiadas solo para variables numericas. 

Si se tiene variables categoricas usamos el procedimiento Crosstabs, alii las variables 
“de capa” son similares a las variables de control que vimos en este apartado. 
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El Procedimiento Crosstabs 

Crosstable (Tabulacion Cruzada) es una tecnica para examinar las relaciones entre dos 
variables categoricas, eventualmente controladas por variables “de capa” 

Este procedimiento testa la independencia y mide la asociacion para datos nominales y 
se puede obtener estimados sobre el riesgo relativo de un evento, dada la presencia o 
no de una caracteristica particular y testar diferencias significativas 

Caso de Estudio 

Con el objeto de establecer los grados de satisfaccion de la clientela, una firma realizo 
una encuesta de 582 clientes en 4 sucursales diferentes 

La encuesta revelo que la calidad del servicio al cliente fue el mas importante factor en 
el marco de un grado de satisfaccion general. 

Con esta information, se desea testar si cada sucursal provee un servicio similar y ade- 
cuado al cliente; los resultados de la encuesta estan en el archivo satisf.sav. 

Vamos a usar el procedimiento Crosstabs para testar la hipotesis de que los niveles de 
satisfaccion del cliente son constantes en todas las sucursales de la firma. 

Analyze —> Descriptive Statistics —»> Crosstabs —> Store como la variable de fila—► Service 
satisfaction como la variable de columna —> Statistics. 

Elegimos Chi-square —*■ Contingency Coefficient —> Phi and Cramer's V —> Lambda —> Un¬ 
certainty coefficient —» Continue —> OK. 


Tabla 13.7 

Store * Service satisfaction Crosstabulation 



Service satisfaction 

To- 

tal 

Strongly 

Negative 

Somewhat 

Negative 

Neutral 

Somewhat 

Positive 

Strongly 

Positive 

Store 

Store 

1 

25 

20 

38 

30 

33 

146 

Store 

2 

26 

30 

34 

27 

19 

136 

Store 

3 

15 

20 

41 

33 

29 

138 

Store 

4 

27 

35 

44 

22 

34 

162 

Total 

93 

105 

157 

112 

115 

582 
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La tabla 13.7 tiene la informacion sobre la frecuencia de respuesta en cada sucursal. 

Si cada sucursal provee un nivel de servicio similar, el patron de respuestas sera simi¬ 
lar en todas las sucursales. 

En la tabla 13.7 ve mos que la mayoria de las respuestas ocurren entre Somewhat Nega¬ 
tive Neutral y Somewhat Positive 

Pero la sucursal 2 parece tener un numero menor de clientes satisfechos. 

En cambio la sucursal 3 parece tener un numero menor de clientes insatisfechos. 

La tabla 13.7, por si sola, no nos permite saber si estas diferencias son reales o no da- 
das las variaciones aleatorias que podrian existir. 

Para asegurarnos traemos de la Pantalla de Resultados la tabla 13.7, que tiene el test 
chi-square 

El Estadistico chi-square testa las medidas de discrepancia entre los datos de las celdas 
y lo que se esperaria si las filas y las columnas no estuvieran relacionadas. 

En la tabla 13.8 el valor Sig de 2 colas para el nivel de significancia asintotica (The two- 
sided asymptotic significance) del estadisticos chi-square es mayor que 0.05 

Con ese dato, podriamos asumir que las diferencias son debidas variaciones aleatorias 
y que todas las tiendas tendrian el mismo nivel de atencion al cliente. 

Sin embargo, no todos los clientes que respondieron a la encuesta tuvieron contacto 
con los representantes de servicio al cliente. 


Tabla 13.8 Chi-Square Tests 


Value 

df 

Asymp. Sig. 

(2-sided) 

Pearson Chi-Square 

16,293 a 

12 

,178 

Likelihood Ratio 

17,012 

12 

,149 

Linear-by-Linear Association 

,084 

1 

,772 

N of Valid Cases 

582 



a. 0 cells (0,0%) have expected count less than 5. 

b. The minimum expected count is 21,73. 
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Ahora clasificaremos los clientes de todas las sucursales en dos grupos: los que tuvie- 
ron y los que no tuvieron contacto con el servicio de atencion al cliente. 

Para hacerlo, vamos otra vez a la caja de dialogo de Crosstabs. 

Elegimos Contact with employee como la variable capa —> OK 

La tabla que obtenemos, 13.9, divide la anterior en dos partes 

Ahora podemos ver que los clientes que no tuvieron contacto con el encargado de ser¬ 
vicio al cliente son agrupados 


Tabla 13.9 Store * Service satisfaction * 

Contact with employee Crosstabulation 

Count 

Contact with employee 

Service satisfaction 

Total 

Strongly 

Negative 

Somewhat 

Negative 

Neutral 

Some¬ 

what 

Positi¬ 

ve 

Strongly 

Positive 

No 

Store 

Store 1 

16 

9 

18 

17 

19 

79 

Store 2 

2 

15 

16 

13 

12 

58 

Store 3 

9 

14 

23 

22 

14 

82 

Store 4 

17 

14 

19 

10 

10 

70 

Total 

44 

52 

76 

62 

55 

289 

Yes 

Store 

Store 1 

9 

11 

20 

13 

14 

67 

Store 2 

24 

15 

18 

14 

7 

78 

Store 3 

6 

6 

18 

11 

15 

56 

Store 4 

10 

21 

25 

12 

24 

92 

Total 

49 

53 

81 

50 

60 

293 

To¬ 

tal 

Store 

Store 1 

25 

20 

38 

30 

33 

146 

Store 2 

26 

30 

34 

27 

19 

136 

Store 3 

15 

20 

41 

33 

29 

138 

Store 4 

27 

35 

44 

22 

34 

162 

Total 

93 

105 

157 

112 

115 

582 


Al parecer habria una asociacion significativa entre las tiendas 2 y niveles bajos de 
atencion al cliente; para estar seguros, comprobamos con el test chi-square. 

El test chi-square, Tabla 13.10, realiza separadamente para los clientes que tuvieron 
contacto con el encargado de los servicios al cliente y los que no tuvieron ese contacto. 
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Tabla 13.10 

Chi-Square Tests 


Contact with employee 

Value 

df 

Asymp. Sig. 
(2-sided) 

No 

Pearson Chi-Square 

20,898 b 

12 

,052 


Likelihood Ratio 

22,937 

12 

,028 


Linear-by-Linear 
Association 

3,514 

1 

,061 


N of Valid Cases 

289 



Yes 

Pearson Chi-Square 

25,726 c 

12 

,012 


Likelihood Ratio 

25,777 

12 

,012 


Linear-by-Linear 
Association 

1,993 

1 

,158 


N ofValid Cases 

293 



Total 

Pearson Chi-Square 

16,293* 

12 

,178 


Likelihood Ratio 

17,012 

12 

,149 


Ljnear-by-Linear 

Association 

,084 

1 

,772 


N ofValid Cases 

582 




El valor Sig = 0.052 para los clientes que no tuvieron contacto con el servicio de aten¬ 
cion al clientes; es sugestivo pero no concluyente. 

Aunque parece haber alguna relacion entre la sucursal y el servicio de satisfaccion al 
cliente, el valor Sig esta en la “frontera” de aceptacion y rechazo de la hipotesis. 

Para estar mas seguros seria necesario un analisis separado para esos clientes y asi 
determinar si hay algun otro factor que influye en la relacion. 

El nivel Sig del test para los clientes que tuvieron contacto con el empleado del servicio 
de atencion al cliente es 0.012, menor al valor 0.05. 

Sobre esa base podemos concluir que la relacion observada en la tabla 13.3 no se de- 
bia al azar, mas bien, era significativa. 

El test chi-square es muy util para determinar si hay o no una relacion entre dos varia¬ 
bles, no nos dice algo sobre la fuerza de esa relacion. 

Para ello vamos a recurrir a las medidas simetricas. 

Los datos simetricos estan registrados en la tabla 13.11 

Miden separadamente los estadisticos de los grupos de clientes que tuvieron y que no 
tuvieron contacto con los empleados del servicio de atencion al cliente. 

Esas medidas se basan en el estadistico chi-square. 
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El estadistico Phi es el resultado de la razon del estadistico chi-square y el numero total 
de observaciones, debidamente ponderadas. 

Es la mas “optimista” de las medidas simetricas y a diferencia de la mayor parte, no 
tiene un limite superior cuando las variables tienen mas de dos categorias. 


Tabla 13.11 

Symmetric Measures 


Contact with employee 

Value 

Approx. Sig. 

No Nominal by Nominal Phi 

,269 

,052 

Cramer's V 

,155 

,052 

Contingency Coefficient 

,260 

,052 

N ofValid Cases 

239 


Yes Nominal by Nominal Phi 

,296 

,012 

Cramer's V 

,1 71 

,012 

Contingency Coefficient 

,284 

,012 

N ofValid Cases 

293 


Total Nominal by Nominal Phi 

,167 

,178 

Cramer's V 

,097 

,178 

Contingency Coefficient 

,165 

,178 

N ofValid Cases 

582 



a. Not assuming the null hypothesis. 

b. Using the asymptotic standard error assuming the null hypothesis. 


El estadistico Cramer’s V lleva al estadistico phi hasta su maximo valor posible, que es 
siempre 1; a medida que el numero de columnas se incrementa. 

Cramer’s V se hace mas conservador con relacion a Phi. 

El Coeficiente de Contingencia toma valores entre 0 y la raiz cuadrada de (k-l)/k ex- 
presion en la que k es igual al numero de filas o de columnas. 

Si el numero de filas es menor que el de columnas, tomara el numero de filas; si el nu¬ 
mero de columnas es menor que el de filas, tomara las columnas como referente 

El Coeficiente de Contingencia se vuelve mas conservador con respecto a phi a medi¬ 
da que la asociacion entre las variables es mas fuerte. 

El valor Sig para las tres medidas en 0.012, lo que indica que hay una relacion estadis- 
ticamente significativa entre las variables testadas 

Pero, los valores de los tres estadisticos estan por debajo de 0.3, por lo que si bien la 
relacion no se debe al azar, no es muy fuerte 
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Mientras estas medidas nos dan ciertas pautas sobre la fortaleza de la asociacion entre 
variables, no nos ofrecen una interpretacion intuitiva 


Hay otras medidas de interes que seran analizadas en el segundo tomo de esta obra. 
Con esto terminamos el Manual de ESTADISTICA APLICADA CON SPSS 
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